This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 06:04] val |
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 06:46] (current) val |
||
|---|---|---|---|
| Line 2: | Line 2: | ||
| ===== Модуль 1. Основы наблюдаемости и архитектура стека ===== | ===== Модуль 1. Основы наблюдаемости и архитектура стека ===== | ||
| - | |||
| - | (4–6 часов) | ||
| ==== Теория ==== | ==== Теория ==== | ||
| + | |||
| + | * [[https://habr.com/ru/articles/956318/|SLA, SLO, SLI простыми словами и с примерами]] | ||
| * SLA (Service Level Agreement) и SLO (Service Level Objective) | * SLA (Service Level Agreement) и SLO (Service Level Objective) | ||
| Line 16: | Line 16: | ||
| ===== Модуль 2. Сбор и анализ метрик с Prometheus ===== | ===== Модуль 2. Сбор и анализ метрик с Prometheus ===== | ||
| - | |||
| - | (8–20 часов) | ||
| * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели, Service Discovery | * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели, Service Discovery | ||
| Line 24: | Line 22: | ||
| ===== Модуль 3. Централизация логов с Loki ===== | ===== Модуль 3. Централизация логов с Loki ===== | ||
| - | |||
| - | (6–10 часов) | ||
| * Установка Grafana Loki | * Установка Grafana Loki | ||
| Line 32: | Line 28: | ||
| ===== Модуль 4. Визуализация данных и дашборды в Grafana ===== | ===== Модуль 4. Визуализация данных и дашборды в Grafana ===== | ||
| - | |||
| - | (6–10 часов) | ||
| * Подключение Prometheus и Loki к Grafana. | * Подключение Prometheus и Loki к Grafana. | ||
| Line 40: | Line 34: | ||
| ===== Модуль 5. Алертинг и обнаружение проблем ===== | ===== Модуль 5. Алертинг и обнаружение проблем ===== | ||
| - | |||
| - | (6–8 часов) | ||
| * Prometheus + Alertmanager, создание правил алертинга (например, "сервер не отвечает", "много 500-х ошибок") | * Prometheus + Alertmanager, создание правил алертинга (например, "сервер не отвечает", "много 500-х ошибок") | ||
| Line 47: | Line 39: | ||
| * Управление инцидентами, настройка silence (подавление алертов), агрегация нотификаций | * Управление инцидентами, настройка silence (подавление алертов), агрегация нотификаций | ||
| * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana | * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana | ||
| + | |||
| + | ===== Черновик ===== | ||
| + | |||
| + | * Процент и время задержки писем через greylist | ||