====== Создание отказоустойчивых Linux решений ======

===== Программа курса =====

  * [[http://www.specialist.ru/course/un5|Linux. Уровень 6. Создание отказоустойчивых кластерных решений.]]


===== Цель курса =====

  * Научиться настраивать отказоустойчивую конфигурацию сервисов Linux на "железном" оборудовании в сети предприятия.


===== Модуль 0. Подготовка стенда в классе =====

  * Узнать свой номер стенда
  * Удалить виртуалки
  * Удалить профили putty
  * Отключить не используемые адаптеры
  * Записать логин пароль и IP (сообщить преподавателю) рабочей станции
  * Проверить наличие дистрибутивов и образов


===== Модуль 1. Развертывание систем и сети кластера =====

==== Теория ====

  * [[http://www.team.ru/server/stbl_compare.shtml|Сравнение кластера надежности и "обычного" сервера]]
  * [[https://ru.wikipedia.org/wiki/%D0%9E%D1%82%D0%BA%D0%B0%D0%B7%D0%BE%D1%83%D1%81%D1%82%D0%BE%D0%B9%D1%87%D0%B8%D0%B2%D1%8B%D0%B9_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80|Отказоустойчивый кластер]]
  * [[https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D1%80%D0%BE%D1%8F%D1%82%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B1%D0%B5%D0%B7%D0%BE%D1%82%D0%BA%D0%B0%D0%B7%D0%BD%D0%BE%D0%B9_%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%8B|Вероятность безотказной работы]]
  * [[https://www.youtube.com/watch?v=-izJHCPKvCg|youtube Отказоустойчивый микрокластер своими руками / Виталий Гаврилов (Ленвендо)]] Схема сети на 4-й минуте
  * [[https://ru.wikipedia.org/wiki/VRRP|VRRP]]

==== Лабораторные работы ====

=== 1.1 Импорт VM Linux ===

<code>
Запустите с правами Administrator

C:\cmder\cmder.exe

bash

cd

test -d conf && rm -rf conf

git clone http://val.bmstu.ru/unix/conf.git

cd conf/virtualbox/

!!! 6 - это номер курса, вместо X укажите Ваш номер стенда, если не знаете его, спросите преподавателя !!!

./setup.sh X 6
</code>

=== 1.2 Аппаратная настройка систем node1 и node2 ===

  * Адаптер 1 - eth0 - Виртуальный адаптер хоста (LAN)
  * Адаптер 2 - eth1 - Сетевой мост (ISP1) только для node1 и node2
  * 2, а если есть возможность, 4 Gb RAM
  * Жесткий диск размер 4G уже добавлен

=== 1.3 Импорт VM Windows ===

  * Подключаем, запускаем, преподаватель демонстрирует работу со статическими настройками IP

=== 1.4 Исходная настройка сети шлюза (запускаем только node1) ===

<code>
ubuntu# sh net_gate.sh

ubuntu# init 6
</code>

  * PuTTY !!!

=== 1.5 Подготовка отказоустойчивой конфигурации ===

  * [[Сервис Keepalived]] (сервис не перезапускать!)

<code>
gate# cat /etc/network/interfaces
</code><code>
auto lo
iface lo inet loopback

auto eth0
iface eth0 inet static
        address 192.168.X.1
        netmask 255.255.255.0

auto eth1
iface eth1 inet manual
        up ip link set eth1 up

#auto eth2
#iface eth2 inet manual
#        up ip link set eth2 up
</code>
<code>
gate# cat /etc/hostname
</code><code>
node1.corpX.un
</code><code>
gate# cat /etc/hosts
</code><code>
127.0.0.1               localhost

192.168.X.1             node1.corpX.un node1
192.168.X.2             node2.corpX.un node2
</code><code>
gate# init 6
</code>

=== 1.6 Тестирование сети ===
<code>
node1# ping ya.ru
</code>

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod1_pract.mp4|Запись практикума]] (длительность: 14 минут)

==== Вопросы ====

  - НА кластер используется для повышения ...
  - НP кластер используется для повышения ...
  - Вероятность безотказной работы группы объектов равна ...

===== Модуль 2. Синхронизация файлов конфигураций узлов =====

==== Теория ====

  * [[https://habr.com/en/post/120702/|csync2 или как облегчить работу с кластером]]
  * [[https://ru.wikipedia.org/wiki/Ansible|Ansible]]

==== Лабораторные работы ====

=== 2.1 Запуск node2 ===

=== 2.2 Синхронизация с использованием сервиса SSH ===

  * Настройка доступа по протоколу ssh пользователя root с node1 на node2 ([[Сервис SSH#Разрешение доступа пользователя root на основании адреса клиента]])
  * Настройка беспарольного доступа пользователя root с node1 на node2 ([[Сервис SSH#Аутентификация с использованием ключей ssh]])

<code>
node2# ifconfig eth0 inet 192.168.X.2/24

node1# ping node2

node1# ssh-keygen
...
Enter passphrase (empty for no passphrase): Пароль на ключ пустой!!!
...

node1# ssh-copy-id node2
</code>

Проверка:

<code>
node1# 
scp /etc/hosts node2:/etc/
scp /etc/hostname node2:/etc/
scp /etc/network/interfaces node2:/etc/network/

node1# ssh node2 route add default gw 192.168.X.254

node1# ssh node2 apt update
node1# ssh node2 apt install keepalived

scp /etc/keepalived/keepalived.conf node2:/etc/keepalived/keepalived.conf
scp /usr/local/bin/vrrp.sh node2:/usr/local/bin/vrrp.sh
</code>

  * Правим файлы конфигурации на node2, перезапускаем, тестируем сеть

<code>
node1# ssh node2

ubuntu# cat /etc/hostname
</code><code>
node2.corpX.un
</code><code>
node2# cat /etc/network/interfaces
</code><code>
...
        address 192.168.X.2
...
</code><code>
node2# cat /etc/keepalived/keepalived.conf
</code><code>
...
#    state MASTER
    state BACKUP
...
</code><code>
node2# init 6
</code>

=== 2.3 Использование BASH алиасов и функций для удобства ===

  * [[Настройка командных интерпретаторов#bash]] алиасы и функции

<code>
node1# scn2 /etc/sysctl.d/20-my-forward.conf

node1# ssn2 sysctl -p --system
</code>
=== 2.4 Синхронизация с использованием пакета CSYNC2 ===

**Сценарий:** настроить DNS на node1, на node2 конфигурация появится автоматически 

  * [[Финальная настройка DNS сервера]] (как это было на "ЛИН СЕРВ")
  * Устанавливаем и ЗАПУСКАЕМ на двух узлаx, настраиваем на node1
<code>
node1# sh conf/dns.sh

node1# cat /etc/bind/corpX.un
</code><code>
$TTL      3h
@         SOA     ns root.ns  1 1d 12h 1w 3h
          NS      ns

ns        A       192.168.X.1
ns        A       192.168.X.2

;node1     A       192.168.X.1
;node2     A       192.168.X.2
$GENERATE 1-9 node$ A 192.168.X.$

gate      A       192.168.X.254
</code><code>
node1# named-checkconf -z

node1# ssn2 apt install bind9
</code>

  * [[Локализация системы#Локализация временной зоны]]
  * [[Пакет CSYNC2]]

<code>
node1# csync2 -xv
</code>
<code>
node1# host ns node1
node1# host ns node2
</code>
<code>
nodeN# cat /etc/resolv.conf
</code><code>
search corpX.un
nameserver 192.168.X.1
nameserver 192.168.X.2
</code><code>
nodeN# host ns 
</code>

=== 2.5 Синхронизация с использованием пакета Ansible ===

**Сценарий:** на обоих узлах создаем пользователя user1 с uid=10001

**Примечание:** выполнить в 5-м модуле

  * [[Сервис Ansible]]

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod2_pract.mp4|Запись практикума]] (длительность: 14 минут)

==== Вопросы ====

  - Команда ssh-copy-id копирует ...
  - Где располагается файл с публичными ключами пользователей ssh?
  - На каком узле будет сохранен файл в результате выполнения команды ssh node2 iptables-save > /etc/iptables.rules
  - Что определяет параметр конфигурации auto younger в пакете csync2
  - Перечислите известные Вам варианты тиражирования файлов конфигурации в кластере?

===== Модуль 3. Развертывание сервисов с интегрированной поддержкой отказоустойчивости =====

==== Теория ====

  * [[https://www.communigate.ru/CommuniGatePro/russian/Clusters.html|Кластеры Communigate Pro]]
  * man dhcpd.conf (DHCP FAILOVER)
==== Лабораторные работы ====

=== 3.1 Отказоустойчивый DHCP сервер ===

  * [[Сервис DHCP#Установка]] cервиса DHCP
<code>
node1# sh conf/dhcp.sh

node2# sh conf/dhcp.sh
</code>

  * [[Сервис DHCP#Отказоустойчивая конфигурация]] cервиса DHCP
  * [[Сервис DHCP#Проверка конфигурации и запуск]] cервиса DHCP
  * [[Сервис DHCP#Мониторинг выданных адресов]] cервиса DHCP
 
Примечание: в первый момент необходимо запустить оба сервера чтобы они синхронизировались.

=== 3.2 Проверка ===

  * !!! Тестирование отказоустойчивости выполнить в лабораторной работе 4.2
  * Тестируем на системе Windows
<code>
windows> ipconfig /release

windows> ipconfig /renew

windows> ipconfig /all

windows> ping ya.ru
</code>

==== Запись практикума ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod3_pract.mp4|Запись практикума]] (длительность: 9 минут)

==== Вопросы ====

  - Есть ли необходимость в использовании дополнительного ПО для реализации отказоустойчивой конфигурации пакета isc-dhcp?
  - Сколько узлов может быть в отказоустойчивой конфигурации isc-dhcp?
  - Какие условия необходимы на начальном этапе развертывания отказоустойчивой конфигурации isc-dhcp?
  - Какие преимущества отказоустойчивой конфигурации isc-dhcp перед двумя независимыми dhcp серверами?

===== Модуль 4. Развертывание отказоустойчивого шлюза в Internet =====

==== Теория ====

  * [[https://ru.wikipedia.org/wiki/VRRP|VRRP]]
  * [[https://ru.wikipedia.org/wiki/CARP|CARP]]
  * [[https://ru.wikipedia.org/wiki/Iproute2|Iproute2]]

==== Лабораторные работы ====

==== 4.1 Отказоустойчивый gate ====

  * [[Протокол CARP]]
  * [[Сервис Keepalived]] 

<code>
windows> ping gate
</code>
==== 4.2 Отказоустойчивый nat ====

  * Настроить NAT трансляцию для сети 192.168.X/24 в реальный адрес ISP ([[Сервис NAT]])
  * После этого **преподавателю** отключить маршруты в локальные сети стендов

  * !!! Либо протестировать отказоустойчивый шлюз с одним провайдером на этом этапе, либо совместить с выполнением лабораторной работы 4.3.1
==== 4.3 Балансировка нагрузки и отказоустойчивость при использовании нескольких ISP ====

  * Дополнительная лабораторная работа

=== 4.3.1 Добавление сетевых карт для подключения к ISP2 ===

<code>
root@nodeN:~# cat /etc/network/interfaces
</code><code>
...
auto eth2
iface eth2 inet manual
        up ip link set eth2 up
</code>

   * [[Сервис Keepalived]] - добавляем eth2
   * По очереди останавливаем узлы и добавляем Адаптер 3 - eth2 - Сетевой мост (ISP2)

<code>
nodeN# ip a | grep eth2
</code>

=== 4.3.2 Модификация настроек dns сервера ===
<code>
node1# cat /etc/bind/named.conf
</code><code>
...
        forwarders {
                172.16.1.254;
                172.16.2.254;
        };
...
</code><code>
node1# csync2 -xv
</code>

=== 4.3.3 Тестирование ISP2 ===

<code>
node1# ip a | grep 172.16.2

node1# ping 172.16.2.254

node1# ip route del default
node1# ip route add default via 172.16.2.254

node1# ping ya.ru

node1# tracepath ya.ru

node1# ip route del default
</code>

=== 4.3.4 Использование PBR для балансировки нагрузки ===

**Сценарий:**

  * Настроить NAT на два ISP ([[Сервисы Gateway и routing#Использование iproute2 для управления выбором ISP]])
  * PBR в "ручном" режиме ([[Сервисы Gateway и routing#NetFilter iproute2 (Linux)]])


=== 4.3.5 Автоматизация балансировки/отказоустойчивости выбора ISP ===

  * [[Сервис Keepalived]] - добавляем таблицы 101 и 102

<code>
node1# ip route show table 101

node1# ip route show table 102

nodeN# cat set_isp.sh
</code><code>
#!/bin/sh

case $1 in
        ISP1)
                ip rule del from 192.168/16 to 192.168/16 table main
                while ip rule del from any table 101;do true;done
                while ip rule del from any table 102;do true;done
                ip route delete default

                ip rule add from 192.168.X.0/24 table 101
                ip rule add from 192.168/16 to 192.168/16 table main

                ip route add default via 172.16.1.254

                /sbin/ip route flush cache
                /usr/sbin/conntrack -F
        ;;
        ISP2)
                ip rule del from 192.168/16 to 192.168/16 table main
                while ip rule del from any table 101;do true;done
                while ip rule del from any table 102;do true;done
                ip route delete default

                ip rule add from 192.168.X.0/24 table 102
                ip rule add from 192.168/16 to 192.168/16 table main

                ip route add default via 172.16.2.254

                /sbin/ip route flush cache
                /usr/sbin/conntrack -F
        ;;
        ISP1ISP2)
                ip rule del from 192.168/16 to 192.168/16 table main
                while ip rule del from any table 101;do true;done
                while ip rule del from any table 102;do true;done
                ip route delete default

                ip rule add from 192.168.X.0/25 table 101
                ip rule add from 192.168.X.128/25 table 102
                ip rule add from 192.168/16 to 192.168/16 table main

                ip route add default via 172.16.1.254
                #ip route add default via 172.16.2.254 

                /sbin/ip route flush cache
                /usr/sbin/conntrack -F
        ;;
esac
</code><code>
nodeN# chmod +x set_isp.sh

node1# /root/set_isp.sh ISP1ISP2

node1# ip rule show

node2# tracepath ya.ru

windows> tracert -d ya.ru

nodeN# cat select_isp.sh
</code><code>
#!/bin/sh

ip a | grep -q '192.168.*254' || exit 0

TESTIP=1.1.1.1

ISP=''

ip route del $TESTIP
ip route add $TESTIP via 172.16.1.254
ping -c3 $TESTIP && ISP=ISP1

ip route del $TESTIP
ip route add $TESTIP via 172.16.2.254
ping -c3 $TESTIP && ISP=${ISP}ISP2

ip route del $TESTIP

echo $ISP
# exit 0

touch /tmp/current_isp
test $ISP = "`cat /tmp/current_isp`" && exit 0

echo $ISP > /tmp/current_isp

/root/set_isp.sh $ISP

</code><code>
nodeN# chmod +x select_isp.sh

node1# /root/select_isp.sh

node1# cat /tmp/current_isp

nodeN# crontab -l
</code><code>
* * * * * /root/select_isp.sh >/dev/null 2>&1
</code>
<code>
master_node# ip rule show
</code>

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod4_pract.mp4|Запись практикума]] (длительность: 4 минуты)

==== Вопросы ====

  - Перечислите протоколы отказоустойчивого шлюза.
  - Для какой операционной системы впервые появилась реализация протокола CARP?
  - Какая утилита из набора iproute2 позволяет назначить/удалить IP адрес на интерфейсе?
  - В чем отличие поведения мастер хоста от других в протоколе CARP/VRRP?
  - Поддерживает ли протокол CARP/VRRP отказоустойчивость соединений?
  - Поддерживает ли протокол CARP/VRRP балансировку нагрузки?
  - Что такое ucarp?
  - В каком пакете в Debian содержатся современные сетевые утилиты, пришедшие на смену классическим UNIX утилитам ifconfig, route, arp, netstat?
  - Какая утилита из набора iproute2 заменяет команду arp?
  - В какой пакет входит утилита send_arp в Debian, для чего нужна и какой вид трафика использует?
  - Какой командой можно очистить таблицу ARP в Linux?
  - В чем принцип работы механизма PBR?
  - Можно ли балансировать трафик одного соединения между двумя ISP при использовании NAT?
  - Необходим ли маршрут "по умолчанию" на шлюзе для прохождения пользовательского трафика?
  - Согласно какой таблице маршрутизации в Linux обрабатывается пакет, если для него нет правила, определяющего обработку в конкретной таблице?
  - Что следует сделать с текущими активными соединениями после изменения правил PBR?

===== Модуль 5. Использование систем управления ресурсами кластера =====

==== Теория ====


  * [[https://github.com/voxpupuli/puppet-corosync/issues/32|Corosync vs Pacemaker: wrong usage of "Corosync"]]
  * [[https://stackoverflow.com/questions/22502495/which-one-is-the-official-command-line-package-of-pacemaker-crmsh-or-pcs|which one is the official command line package of pacemaker? crmsh or pcs?]]
  * [[https://clusterlabs.org/pacemaker/doc/2.1/Pacemaker_Administration/html/pcs-crmsh.html|Quick Comparison of pcs and crm shell]]
  * [[https://clusterlabs.org/pacemaker/doc/|ClusterLabs Pacemaker Documentation]]


==== Лабораторные работы ====

Сценарий: отказоустойчивое ftp хранилище пользовательских файлов с web доступом

  * Содержимое домашних каталогов мастер сервера периодически копируется на резервный. 
  * В случае временной остановки или выхода из строя главного сервера автоматически становится доступным резервный. 
  * Не преднамеренный запуск мастер сервера не должен менять ролей серверов.

==== 5.1 Синхронизация каталогов ====

=== 5.1.1 Установка и запуск сервера Apache ===

  * В зону corpX.un добавляем запись www A 192.168.X.10

<code>
node1# cat /etc/bind/corpX.un
</code><code>
...
www       A       192.168.X.10
</code><code>
node1# named-checkconf -z

node1# csync2 -xv
</code>

  * На обоих узлах [[Сервис HTTP#Установка и запуск сервера Apache]] (можно через Ansible)
  * На обоих узлах создаем пользователя user1 с uid=10001 ([[Управление учетными записями в Linux]]) (можно через Ansible)
  * На обоих узлах включаем [[Сервис HTTP#Использование домашних каталогов]] (можно через Ansible)
  * Использование [[Сервис Ansible]] для автоматизации задач (финальные работы 8.1 и 8.2 выполнить утром 3-го дня)
  * Устанавливаем сервер ftp на node1 и запускаем его ([[Сервис FTP#Сервер ftp]])
  * Копируем любые файлы, подключаясь user1 по протоколу протокол ftp на node1

<code>
Проводник: ftp://node1
l: user1
p: password1

Каталог: public_html

В Браузере: http://node1.corpX.un/~user1
</code>

=== 5.1.2 Синхронизация пользовательских данных ===

  * [[Пакет RSYNC]]
  * Можно автоматизировать, ([[Планирование выполнения заданий в Linux]]), но, пока не нужно.
==== 5.2 Автоматизация смены ролей узлов кластера ====

=== 5.2.1 Установка и сервера FTP ===

  * Устанавливаем ftp сервис на node2 ([[Сервис FTP#Сервер ftp]])
  * На обоих узлах отключаем автоматический запуск ftp сервиса ([[Управление сервисами в Linux]])
 
<code>
nodeN# service proftpd stop

nodeN# update-rc.d -f proftpd remove
или
debian11_12# systemctl disable proftpd
</code>

=== 5.2.2 Настройка менеджера кластера ===

  * [[Пакет HEARTBEAT]] (Демонстрирует преподаватель в методических целях)
  * [[Пакет Corosync]]
  * [[Пакет Pacemaker]]
  * [[Пакет PCS]] (сделать резервную копию /etc/corosync/corosync.conf)

<code>
Проводник: ftp://www

В Браузере: http://www.corpX.un/~user1
</code>

=== 5.2.3 Автоматическая синхронизация домашних каталогов ===

  * Настроить автоматическую синхронизацию домашних каталогов с мастер узла на резервный 
<code>
node2# ssh-keygen

node2# ssh-copy-id node1

nodeN# crontab -l
</code><code>
...
* * * * * ps ax | grep -q '[p]roftpd: (accepting connections)' && /usr/bin/rsync -az --delete /home/ nodeM:/home/
</code>
==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod5_pract.mp4|Запись практикума]] (длительность: 15 минут)

==== Вопросы ====

  - В чем преимущество использования rsync по сравнению с scp?
  - Что определяют разделители : и :: в команде rsync?
  - Реализацией какой части классического пакета heartbeat является пакет pacemaker?
  - Какие задачи классического пакета heartbeat НЕ решает пакет corosync?
  - В каком формате хранятся файлы конфигурации пакета corosync?
  - В каком формате хранятся файлы конфигурации пакета pacemaker?
  - По какой причине не следует редактировать файлы конфигурации пакета pacemaker в текстовом редакторе?
  - Для чего используется утилита crm должна ли она быть установлена на все узлы кластера?
  - Для чего используется утилита crm_mon и есть ли она на всех узлах кластера?
  - Что надо настроить в пакете pacemaker, что бы все части, из которых состоит ресурс, запускались на одном узле кластера?
  - Какой тип трафика может использоваться для связи узлов кластера corosync?
  - Что нужно сделать для сервисов, управляемых менеджером кластера?

===== Модуль 6. Развертывание отказоустойчивых файловых сервисов =====

==== Теория ====

  * [[https://ru.wikipedia.org/wiki/DRBD|Distributed Replicated Block Device]]
  * [[https://ru.wikipedia.org/wiki/%D0%A1%D0%B5%D1%82%D1%8C_%D1%85%D1%80%D0%B0%D0%BD%D0%B5%D0%BD%D0%B8%D1%8F_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85|Сеть хранения данных (англ. Storage Area Network, SAN)]]
  * [[https://ru.wikipedia.org/wiki/NAS|Cервер для хранения данных (англ. Network Attached Storage, NAS)]]

==== Лабораторные работы ====

**Сценарий**: Создаем отказоустойчивый корпоративный файловый сервер. Первый узел кластера должен использоваться сервером по умолчанию.

==== 6.1 Развертывание распределенного RAID 1 =====

  * Подключаем к обоим узлам по дополнительному диску
  * [[Решение DRBD]]

==== 6.2 Автоматизация смены ролей узлов кластера  ====

  * Pacemaker [[Пакет Pacemaker#Удаление ресурсов]]
  * Pacemaker [[Пакет Pacemaker#Управление конфигурацией]] (уменьшение вероятности split-brain)
  * [[Решение DRBD#DRBD и Pacemaker]] (оставить приклрепление к node1) 
  * Можно показать на отдельном стенде [[Решение DRBD#Конфигурация с двумя primaries]]

==== 6.3 Настройка NAS сервера SMB/CIFS ====

  * В зону corpX.un добавляем запись fs A 192.168.X.20

<code>
node1# cat /etc/bind/corpX.un
</code><code>
...
fs        A       192.168.X.20
</code><code>
node1# named-checkconf -z

node1# csync2 -xv
</code>

  * Устанавливаем на оба узла (лучше, отдельно на каждом) пакет samba ([[Файловый сервер SAMBA]])
  * Отключаем автоматический запуск сервиса

<code>
root@nodeN:~#

service smbd stop
service nmbd stop

systemctl disable smbd
systemctl disable nmbd


</code>

  * Настраиваем на обоих узлах [[Файловый сервер SAMBA#Публичный каталог доступный на запись]]
  * Создаем каталог /disk2/samba на мастер узле
  * Настраиваем менеджер кластера на монтирование на мастер узле зеркалируемого раздела в каталог /disk2, назначение ip адреса 192.168.X.20 и запуск сервера samba

<code>
node1# crm configure

crm(live)configure# primitive pr_srv_smbd systemd:smbd

crm(live)configure# primitive pr_ip_smbd ocf:heartbeat:IPaddr2 params ip=192.168.X.20 cidr_netmask=32 nic=eth0

crm(live)configure# group gr_ip_fs pr_fs_r0 pr_ip_smbd pr_srv_smbd

или

crm(live)configure# group pr_fs_r0 pr_ip_smbd pr_srv_smbd

или

crm(live)configure# edit gr_ip_fs

crm(live)configure# commit
</code>

=== Тестирование ===

<code>
slave# watch cat /proc/drbd

slave# crm_mon
</code>

  * Останавливаем MASTER сервер и дожидаемся монтирования на SLAVE узле "половины" зеркалируемого раздела в каталог /disk2, назначение ip адреса 192.168.X.20 и запуск сервера samba 
  * Запускаем бывший MASTER узел и дожидаемся восстановления целостности зеркала

  * !!! (Лучше после демонстрации SplitBrain в конце лабораторной работы 7.1.1) Останавливаем группу ресурсов кластера и [[Пакет Pacemaker#Удаление ресурсов]]
<code>
master# crm resource stop pr_srv_smbd pr_ip_smbd

master# crm configure delete pr_srv_smbd pr_ip_smbd gr_ip_fs
</code>

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod6_pract.mp4|Запись практикума]] (длительность: 12 минут)

==== Вопросы ====

  - Какое решение можно использовать для блочной синхронизации дисковых устройств по сети?
  - При каком условии можно монтировать распределенное блочное хранилище на запись сразу на нескольких, содержащих его узлах?
  - Что определяет параметр wfc-timeout в пакете DRBD?
  - В каком состоянии будет DRBD RAID1 если узлы, входящие в него, в разное время поработали, независимо друг от друга, с разделом, в течение времени превышающем wfc-timeout?
  - Чем отличаются системы NAS и SAN
  - В чем фундаментальное отличие протоколов CIFS и iSCSI?

===== Модуль 7. Развертывание контейнеров в отказоустойчивой конфигурации =====

==== Теория ====

  * [[https://ru.wikipedia.org/wiki/LXC|Linux Containers]]
  * [[https://www.thomas-krenn.com/en/wiki/HA_Cluster_with_Linux_Containers_based_on_Heartbeat,_Pacemaker,_DRBD_and_LXC|HA Cluster with Linux Containers based on Heartbeat, Pacemaker, DRBD and LXC]]

==== Лабораторные работы ====

==== 7.1 Linux Containers в зеркалируемом разделе ====

  * В зону corpX.un добавляем запись server1 A 192.168.X.31

<code>
node1# cat /etc/bind/corpX.un
</code><code>
...
server1   A       192.168.X.31
server2   A       192.168.X.32
@         MX  10  server1
</code><code>
node1# named-checkconf -z

node1# csync2 -xv
</code>


=== 7.1.1 Настройка bridge на узлах и сервисах ===

  * [[Технология LXC#Подготовка сети]] для LXC на одной системе

<code>
nodeN# apt install bridge-utils

nodeN# cat /etc/network/interfaces
</code><code>
...
auto br0
iface br0 inet static

        bridge_ports eth0
        #####if generate same mac on nodes (Debian11/12)
        #bridge_hw 08:00:27:23:45:0N

        address 192.168.X.N
        ...
        
</code>

  * [[Сервис Keepalived]] и bridge
  * Сервис DHCP и bridge

<code>
nodeN# cat /etc/default/isc-dhcp-server
</code><code>
...
INTERFACESv4="br0"
</code><code>
nodeN# init 0
</code>

  * Для режима bridge в lxc понадобиться включить "неразборчивый режим" первом адаптере обеих виртуальных машин
  * Проверки после запуска

<code>
nodeN# ip a

node1# mount | egrep 'ext|ocfs'

nodeN# cat /proc/drbd
</code>

  * Может понадобиться [[Решение DRBD#Решение ситуации Split-Brain]] или, в нашем случае [[Решение DRBD#Решение ситуации Split-Brain при использовании Pacemaker]]

=== 7.1.2 Подготовка виртуальных машин ===

  * [[Технология LXC#Установка и настройка lxc]] на обоих узлах
  * Готовимся все, относящееся к виртуальным системам, хранить на зеркалируемом разделе
  * [[https://www.claudiokuenzler.com/blog/1206/debian-bullseye-11.3-lxc-container-static-ip-config-not-working|LXC containers with static IP in config not working anymore after Debian Bullseye 11.3 update]]

<code>
root@nodeN:~# rmdir /var/lib/lxc/

root@nodeN:~# ln -s /disk2/var/lib/lxc/ /var/lib/lxc
</code>

  * Создание ветки дочерней системы/шаблона (в большой группе занимает 5 минут, попробовать настроить proxy через [[Переменные окружения]])
  
<code>
root@node1.corpX.un:~# mkdir -p /disk2/var/lib/lxc/

node1_ubuntu# lxc-create -t download -n server-template -- -d ubuntu -r focal -a amd64

node1_debian# lxc-create -t debian -n server-template
</code>

  * Установка ПО в дочерней системе/шаблоне

<code>
root@node1.corpX.un:~# chroot /var/lib/lxc/server-template/rootfs/ /bin/bash

root@node1:/# PS1='server-template:\w# '

server-template:/# apt update

server-template:/# apt purge netplan.io isc-dhcp-client

server-template:/# apt install nano ssh iputils-ping sudo
</code>

  * !!! Методическая рекомендация - запустить процесс установки Ceph (лабораторная работа 8.3) настроив proxy через [[Переменные окружения]] и [[Сервис Ansible#Использование модулей]] Ansible

  * Настраиваем hostname, hosts, DNS client и учетную запись root в гостевой системе/шаблоне

<code>
server:/# cat /etc/hostname
</code><code>
server-template.corpX.un
</code><code>
server-template:/# cat /etc/hosts
</code><code>
127.0.0.1 localhost

192.168.X.30 server-template.corpX.un server-template
</code><code>
server-template:/# more /etc/resolv.conf 

server-template:/# cat /etc/systemd/resolved.conf
</code><code>
[Resolve]
DNS=192.168.X.1 192.168.X.2
</code><code>
server-template:/# passwd ubuntu
  или
server-template:/# useradd -m -s /bin/bash -G sudo student
server-template:/# passwd student
</code>
Ctrl-D

  * Настраиваем lxc для запуска гостевой системы/шаблона в контейнере

<code>
root@node1.corpX.un:~# cat /var/lib/lxc/server-template/config
</code><code>
...
lxc.rootfs.path = dir:/var/lib/lxc/server-template/rootfs
lxc.uts.name = server-template
...
lxc.net.0.type = veth
lxc.net.0.link = br0
lxc.net.0.flags = up
lxc.net.0.ipv4.address = 192.168.X.30/24
lxc.net.0.ipv4.gateway = 192.168.X.254
</code>

  * Создание системы из шаблона

<code>
root@node1.corpX.un:~# 

SRC_CONTAINER=server-template
DST_CONTAINER=server1

SRC_IP=192.168.X.30
DST_IP=192.168.X.31

time cp -rp /var/lib/lxc/$SRC_CONTAINER/ /var/lib/lxc/$DST_CONTAINER/

find /var/lib/lxc/$DST_CONTAINER/rootfs/etc/ -type f -exec sed -i'' -e "s/$SRC_CONTAINER/$DST_CONTAINER/" -e "s/$SRC_IP/$DST_IP/" {} \;

sed -i'' -e "s/$SRC_CONTAINER/$DST_CONTAINER/" -e "s/$SRC_IP/$DST_IP/" /var/lib/lxc/$DST_CONTAINER/config

</code>

  * Тестируем работу виртуальной системе на MASTER узле

<code>
root@node1.corpX.un:~# lxc-info -n server1

root@node1.corpX.un:~# systemctl start lxc@server1

root@node1.corpX.un:~# ssh ubuntu@server1
root@node1.corpX.un:~# ssh student@server1

root@node1.corpX.un:~# systemctl stop lxc@server1
</code>

==== 7.2 Интеграция контейнеров с менеджером кластера ====

=== Pacemaker ===

<code>
#primitive pr_lxc_server1 systemd:lxc@server1 meta resource-stickiness=100
primitive pr_lxc_server1 systemd:lxc@server1

group gr_fs_lxc pr_fs_r0 pr_lxc_server1
</code>

==== Настройка виртуальной системы как сервер электронной почты и тестирование отказоустойчивости ====

  * [[Сервис SSH#PuTTY]]

<code>
server1$ sudo -i

server1# apt install ansible git

server1# git clone http://val.bmstu.ru/unix/conf.git

server1# ansible-playbook conf/ansible/roles/mail.yml
</code>

  * Roundcube http://server1.corpX.un/mail

<code>
node1# crm configure delete location cli-prefer-pr_fs_r0

node1# crm resource move gr_fs_lxc node2
</code>

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod7_pract.mp4|Запись практикума]] (длительность: 33 минуты)

==== Вопросы ====

  - Что лучше, контейнерная виртуализация или аппаратная?

===== Модуль 8. Распределенное отказоустойчивое хранилище Ceph =====

  - Настройка IP на node3-7, [[Сервис Ansible#Настройка групп управляемых систем]], [[Сервис Ansible#Настройка транспорта ssh]] и [[Сервис Ansible#Использование модулей]] Ansible для тестирования связи с ними
  - [[Сервис Ansible#Использование ролей]] Ansible для настройки файлов конфигурации сети на node3-7 
  - [[Сервис Ansible#Использование модулей]] Ansible для инсталляции Ceph на node3-7 (в большой группе ставится 45 минут)
  - [[Ceph - просто добавь узлов!#Шаг 2. Установка и настройка Ceph]] сразу добавить 6-й узел как OSD
  - [[Решение Ceph]]
  - [[Сервис iSCSI#iSCSI initiator]]
  - [[Сервис multipath]]

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod8_pract.mp4|Запись практикума]] (длительность: 26 минут)

===== Модуль 9. Кластерная файловая система OCFS2 =====

  * !!! Методическая рекомендация - СРАЗУ после установки пакетов для ocfs запустить процесс установки пакетов для kvm
  * [[Сервис OCFS2]]

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod9_pract.mp4|Запись практикума]] (длительность: 8 минут)

===== Модуль 10. Система виртуализации KVM =====

  * Методическая рекомендация - выключить win10 clientN (конфликт имен и путаница с ip адресами)
  * Проверить, включена ли [[Технология VirtualBox#Вложенная виртуализация]] в VirtualBox
  * [[Технология KVM]] (в большой группе ставится 10 минут)

==== Практикум ====

  * [[https://val.bmstu.ru/~val/pract/lin6/lin6_mod10_pract.mp4|Запись практикума]] (длительность: 20 минут)

===== Модуль 11. Тестирование отказоустойчивости =====

  - Переместить все ресурсы на node1, обесточить его и убедиться что все ресурсы (winxp1 и server1) запустились на node2 (на winxp1 может начаться проверка диска)
  - Остановить node2 (рекомендуется сперва корректно остановить winxp1)
  - запустить node2, убедиться что все ресурсы (winxp1 и server1) запустились (можно node1 и проверить письмо про splitbrain)
  - Выяснить, через какой узел подключается [[Сервис multipath]] на node2 по iSCSI к RBD Ceph
  - Выполнить для этого узла [[Ceph - просто добавь узлов!#Шаг 4. Сценарий - авария узла]]

  * Видео [[Бюджетная безотказная сеть для кластера]]