Differences

This shows you the differences between two versions of the page.

--- бюджетная_безотказная_сеть_для_кластера [2025/04/05 15:51]
val
+++ бюджетная_безотказная_сеть_для_кластера [2025/04/09 04:49] (current)
val [Запись вебинара]
@@ Line 1: / Line 1: @@
 ====== Бюджетная безотказная сеть для кластера ======
-  * [[Мониторинг кластера Kubernetes]]
+===== Реклама =====
-  * [[Настройка сети в Linux#Настройка bonding]]
+  * Всем привет! В нашем центре обучения вы научитесь разворачивать множество различных кластеров - pacemaker/corosync, ceph, kubernetes, и, у студентов часто возникает вопрос, а что случится, если "сломается" сеть между его узлами. Давайте на этот вопрос зададим другой - как сделать так, что бы сеть между узлами кластера "не сломалась"
+===== Техническое задание =====
+  * Развернуть отказоустойчивую сеть с использованиием неуправляемых коммутаторов
+  * Мигрировать кластер в эту сеть с минимальным временем простоя
+  * Убедиться в отказоустойчивости решения
+===== Запись вебинара =====
+  * Тэги: Linux, Bond, Ethernet, Cluster, Arp, High availability
+  * [[https://val.bmstu.ru/unix/video/Семинар%20Бюджетная%20безотказная%20сеть%20для%20кластера%2008.04.2025.mp4]]
+===== Методическая подготовка =====
+===== Шаг 1. Что у нас есть для начала =====
+  * [[Мониторинг кластера Kubernetes]] или [[Решение Ceph]] или [[Пакет Pacemaker]]
+  * [[Сети Cisco и Linux у Вас дома]]
+  * [[Утилита curl]] для тестирования работы приложения
+===== Шаг 2. Создаем оказоустойчивую сеть =====
+  * Используя [[Материалы по GNS]], создаем оказоустойчивую сеть: cloud LAN и Switch1,2,3
+===== Шаг 3. Настраиваем bonding, добавляем второй сетевой адаптер и включаем в оказоустойчивую сеть =====
+<code>
+(venv1) server:~# ansible all -f 4 -m apt -a 'pkg=ifenslave state=present update_cache=true' -i /root/kubespray/inventory/mycluster/hosts.yaml
+</code>
+  * По очереди, на каждом узле проводим [[Настройка сети в Linux#Настройка bonding]]
+<code>
+server# cat /tmp/interfaces
+...
+iface bond0 inet static
+        address 192.168.24.22N
+...
+server# scp /tmp/interfaces kubeN:/etc/network/interfaces
+server# ssh kubeN init 0
+</code>
+  * Удаляем на узле адаптер Vbox, добавляем его в GNS, указываем два сетевых адаптера, подключаем к Switch1,2 и запускаем
+  * Проверяем работоспособность узла
+<code>
+cmder> kubectl get nodes
+nodeN# ceph -s
+nodeN# crm_mon
+</code>
+  * [[https://stackoverflow.com/questions/55072235/how-to-delete-completed-kubernetes-pod|How to delete completed kubernetes pod?]]
+<code>
+kube1:~# kubectl get pods --field-selector=status.phase!=Running -A -o wide
+kube1:~# kubectl delete pod --field-selector=status.phase==Succeeded -A
+kube1:~# kubectl delete pod --field-selector=status.phase==Failed -A
+</code>
+===== Шаг 4. Тестируем отказоустойчивую сеть =====
+  * Удаляем отдельные линки ([[Настройка сети в Linux#Настройка bonding]])
+  * Ждем сообщение от мониторинга ([[Сервис Prometheus]] и [[Сервис Prometheus#prometheus-alertmanager]])
+  * Удаляем по очереди Switch1,2 (не забыть подключать к Switch3)
+  * Пробуем устроить Ethernet петлю
+<code>
+kube1:~# tcpdump -nniany arp
+kube1:~# ip n flush all
+</code>
+===== Вопросы =====
+===== Домашнее задание =====
+  - Написать ansible playbook для настройки bond ifupdown
+  - Используя GNS, проверить гипотезу о возможности использования одного IP адреса двумя компьютерами
+===== Вернуть обратно =====
+<code>
+(venv1) server.corp24.un:~# ansible all -a 'init 0' -i /root/kubespray/inventory/mycluster/hosts.yaml
+</code>
+  - Остановить проект
+  - Удалить все объекты из проекта
+  - Удалить VM из GNS
+  - Удалить проект
+  - Откатить VM kubeN на snapshot
+  - Запустить кластер

Методические материалы Лохтурова Вячеслава

User Tools

Site Tools

Differences

Page Tools