Differences

This shows you the differences between two versions of the page.

--- prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 06:04]
val
+++ prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 11:24] (current)
val
@@ Line 1: / Line 1: @@
 ====== Prometheus, Grafana, Loki - Observability инфраструктуры ======
+===== Реклама =====
+  * Мониторинг не нужен, если он формален и не нацелен на бизнес-результат
+  * Observability — переход от простого сбора метрик к пониманию влияния ИТ-инфраструктуры на бизнес-показатели, прогнозированию сбоев и автоматизации реагирования
+  * Бизнес-метрики - мониторинг не сервисов, а действий пользователя (например, количество успешных подключений)
+  * Умные оповещения - должны приходить только при реальной угрозе для сервиса а не по каждому незначительному отклонению
+  * Автоматизация - запуск процедур восстановления параллельно с уведомлениями инженеров
+===== Техническое задание =====
+  * Настроить учет работы систем, сервисов и сетей предприятия с точки зрения: метрик (Service Level Indicator - SLI), целей команды предприятия (Service Level Objective - SLO) и гарантий для клиентов (Service Level Agreement - SLA)
 ===== Модуль 1. Основы наблюдаемости и архитектура стека =====
-(4–6 часов)
 ==== Теория ====
+  * [[https://habr.com/ru/articles/956318/|SLA, SLO, SLI простыми словами и с примерами]]
   * SLA (Service Level Agreement) и SLO (Service Level Objective)
@@ Line 16: / Line 28: @@
 ===== Модуль 2. Сбор и анализ метрик с Prometheus =====
-(8–20 часов)
   * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели, Service Discovery
@@ Line 24: / Line 34: @@
 ===== Модуль 3. Централизация логов с Loki =====
-(6–10 часов)
   * Установка Grafana Loki
@@ Line 32: / Line 40: @@
 ===== Модуль 4. Визуализация данных и дашборды в Grafana =====
-(6–10 часов)
   * Подключение Prometheus и Loki к Grafana.
@@ Line 40: / Line 46: @@
 ===== Модуль 5. Алертинг и обнаружение проблем =====
-(6–8 часов)
   * Prometheus + Alertmanager, создание правил алертинга (например, "сервер не отвечает", "много 500-х ошибок")
@@ Line 47: / Line 51: @@
   * Управление инцидентами, настройка silence (подавление алертов), агрегация нотификаций
   * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana
+===== Черновик =====
+  * Процент и время задержки писем через greylist

Методические материалы Лохтурова Вячеслава

User Tools

Site Tools

Differences

Page Tools