User Tools

Site Tools


prometheus_grafana_loki_-_observability_инфраструктуры

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 06:04]
val
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 11:24] (current)
val
Line 1: Line 1:
 ====== Prometheus, Grafana, Loki - Observability инфраструктуры ====== ====== Prometheus, Grafana, Loki - Observability инфраструктуры ======
 +
 +===== Реклама =====
 +
 +  * Мониторинг не нужен, если он формален и не нацелен на бизнес-результат
 +  * Observability — переход от простого сбора метрик к пониманию влияния ИТ-инфраструктуры на бизнес-показатели,​ прогнозированию сбоев и автоматизации реагирования
 +  * Бизнес-метрики - мониторинг не сервисов,​ а действий пользователя (например,​ количество успешных подключений)
 +  * Умные оповещения - должны приходить только при реальной угрозе для сервиса а не по каждому незначительному отклонению
 +  * Автоматизация - запуск процедур восстановления параллельно с уведомлениями инженеров
 +
 +===== Техническое задание =====
 +
 +  * Настроить учет работы систем,​ сервисов и сетей предприятия с точки зрения:​ метрик (Service Level Indicator - SLI), целей команды предприятия (Service Level Objective - SLO) и гарантий для клиентов (Service Level Agreement - SLA)
  
 ===== Модуль 1. Основы наблюдаемости и архитектура стека ===== ===== Модуль 1. Основы наблюдаемости и архитектура стека =====
-  
-(4–6 часов) 
  
 ==== Теория ==== ==== Теория ====
 +
 +  * [[https://​habr.com/​ru/​articles/​956318/​|SLA,​ SLO, SLI простыми словами и с примерами]]
  
   * SLA (Service Level Agreement) и SLO (Service Level Objective)   * SLA (Service Level Agreement) и SLO (Service Level Objective)
Line 16: Line 28:
  
 ===== Модуль 2. Сбор и анализ метрик с Prometheus ===== ===== Модуль 2. Сбор и анализ метрик с Prometheus =====
-  
-(8–20 часов) 
  
   * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели,​ Service Discovery   * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели,​ Service Discovery
Line 24: Line 34:
  
 ===== Модуль 3. Централизация логов с Loki ===== ===== Модуль 3. Централизация логов с Loki =====
-  
-(6–10 часов) 
  
   * Установка Grafana Loki   * Установка Grafana Loki
Line 32: Line 40:
  
 ===== Модуль 4. Визуализация данных и дашборды в Grafana ===== ===== Модуль 4. Визуализация данных и дашборды в Grafana =====
- 
-(6–10 часов) 
  
   * Подключение Prometheus и Loki к Grafana.   * Подключение Prometheus и Loki к Grafana.
Line 40: Line 46:
  
 ===== Модуль 5. Алертинг и обнаружение проблем ===== ===== Модуль 5. Алертинг и обнаружение проблем =====
- 
-(6–8 часов) 
  
   * Prometheus + Alertmanager,​ создание правил алертинга (например,​ "​сервер не отвечает",​ "​много 500-х ошибок"​)   * Prometheus + Alertmanager,​ создание правил алертинга (например,​ "​сервер не отвечает",​ "​много 500-х ошибок"​)
Line 47: Line 51:
   * Управление инцидентами,​ настройка silence (подавление алертов),​ агрегация нотификаций   * Управление инцидентами,​ настройка silence (подавление алертов),​ агрегация нотификаций
   * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana   * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana
 +
 +===== Черновик =====
 +
 +  * Процент и время задержки писем через greylist
prometheus_grafana_loki_-_observability_инфраструктуры.1776049499.txt.gz · Last modified: 2026/04/13 06:04 by val