prometheus_grafana_loki_-_observability_инфраструктуры

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 06:04]
val
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 06:46] (current)
val
Line 2: Line 2:
  
 ===== Модуль 1. Основы наблюдаемости и архитектура стека ===== ===== Модуль 1. Основы наблюдаемости и архитектура стека =====
-  
-(4–6 часов) 
  
 ==== Теория ==== ==== Теория ====
 +
 +  * [[https://​habr.com/​ru/​articles/​956318/​|SLA,​ SLO, SLI простыми словами и с примерами]]
  
   * SLA (Service Level Agreement) и SLO (Service Level Objective)   * SLA (Service Level Agreement) и SLO (Service Level Objective)
Line 16: Line 16:
  
 ===== Модуль 2. Сбор и анализ метрик с Prometheus ===== ===== Модуль 2. Сбор и анализ метрик с Prometheus =====
-  
-(8–20 часов) 
  
   * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели,​ Service Discovery   * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели,​ Service Discovery
Line 24: Line 22:
  
 ===== Модуль 3. Централизация логов с Loki ===== ===== Модуль 3. Централизация логов с Loki =====
-  
-(6–10 часов) 
  
   * Установка Grafana Loki   * Установка Grafana Loki
Line 32: Line 28:
  
 ===== Модуль 4. Визуализация данных и дашборды в Grafana ===== ===== Модуль 4. Визуализация данных и дашборды в Grafana =====
- 
-(6–10 часов) 
  
   * Подключение Prometheus и Loki к Grafana.   * Подключение Prometheus и Loki к Grafana.
Line 40: Line 34:
  
 ===== Модуль 5. Алертинг и обнаружение проблем ===== ===== Модуль 5. Алертинг и обнаружение проблем =====
- 
-(6–8 часов) 
  
   * Prometheus + Alertmanager,​ создание правил алертинга (например,​ "​сервер не отвечает",​ "​много 500-х ошибок"​)   * Prometheus + Alertmanager,​ создание правил алертинга (например,​ "​сервер не отвечает",​ "​много 500-х ошибок"​)
Line 47: Line 39:
   * Управление инцидентами,​ настройка silence (подавление алертов),​ агрегация нотификаций   * Управление инцидентами,​ настройка silence (подавление алертов),​ агрегация нотификаций
   * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana   * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana
 +
 +===== Черновик =====
 +
 +  * Процент и время задержки писем через greylist
prometheus_grafana_loki_-_observability_инфраструктуры.1776049499.txt.gz · Last modified: 2026/04/13 06:04 by val