This shows you the differences between two versions of the page.
| Next revision | Previous revision | ||
|
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 05:54] val created |
prometheus_grafana_loki_-_observability_инфраструктуры [2026/04/13 11:24] (current) val |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| ====== Prometheus, Grafana, Loki - Observability инфраструктуры ====== | ====== Prometheus, Grafana, Loki - Observability инфраструктуры ====== | ||
| + | ===== Реклама ===== | ||
| + | |||
| + | * Мониторинг не нужен, если он формален и не нацелен на бизнес-результат | ||
| + | * Observability — переход от простого сбора метрик к пониманию влияния ИТ-инфраструктуры на бизнес-показатели, прогнозированию сбоев и автоматизации реагирования | ||
| + | * Бизнес-метрики - мониторинг не сервисов, а действий пользователя (например, количество успешных подключений) | ||
| + | * Умные оповещения - должны приходить только при реальной угрозе для сервиса а не по каждому незначительному отклонению | ||
| + | * Автоматизация - запуск процедур восстановления параллельно с уведомлениями инженеров | ||
| + | |||
| + | ===== Техническое задание ===== | ||
| + | |||
| + | * Настроить учет работы систем, сервисов и сетей предприятия с точки зрения: метрик (Service Level Indicator - SLI), целей команды предприятия (Service Level Objective - SLO) и гарантий для клиентов (Service Level Agreement - SLA) | ||
| + | |||
| + | ===== Модуль 1. Основы наблюдаемости и архитектура стека ===== | ||
| + | |||
| + | ==== Теория ==== | ||
| + | |||
| + | * [[https://habr.com/ru/articles/956318/|SLA, SLO, SLI простыми словами и с примерами]] | ||
| + | |||
| + | * SLA (Service Level Agreement) и SLO (Service Level Objective) | ||
| + | * Метрики, Логи, Трейсы, Чем отличается мониторинг от наблюдаемости | ||
| + | * Роль каждого компонента (Prometheus, Grafana, Loki) в экосистеме | ||
| + | |||
| + | ==== Практика ==== | ||
| + | |||
| + | * Установка Prometheus и Grafana | ||
| + | |||
| + | ===== Модуль 2. Сбор и анализ метрик с Prometheus ===== | ||
| + | |||
| + | * Настройка экспортеров (Node Exporter для метрик ОС), принцип pull-модели, Service Discovery | ||
| + | * Язык запросов PromQL: Изучение типов данных (счетчики, измеряемые величины, гистограммы), операторов и агрегаций | ||
| + | * Оценка загрузки CPU, RAM, сети, задержки ввода/вывода | ||
| + | |||
| + | ===== Модуль 3. Централизация логов с Loki ===== | ||
| + | |||
| + | * Установка Grafana Loki | ||
| + | * Установка и настройка Promtail для доставки логов приложений и системных журналов | ||
| + | * Язык LogQL, фильтрация и анализ логов (поиск ошибок, парсинг JSON, агрегация статистики по логам) | ||
| + | |||
| + | ===== Модуль 4. Визуализация данных и дашборды в Grafana ===== | ||
| + | |||
| + | * Подключение Prometheus и Loki к Grafana. | ||
| + | * Создание дашбордов, типы панелей (Time series, Table, Stat, Logs), настройка внешнего вида и переменных, интерактивные дашборды | ||
| + | * Пример дашборда "Мониторинг сервера" с метриками (CPU/RAM) и виджетом последних ошибок из логов | ||
| + | |||
| + | ===== Модуль 5. Алертинг и обнаружение проблем ===== | ||
| + | |||
| + | * Prometheus + Alertmanager, создание правил алертинга (например, "сервер не отвечает", "много 500-х ошибок") | ||
| + | * Настройка маршрутизации уведомлений (Email, Telegram) | ||
| + | * Управление инцидентами, настройка silence (подавление алертов), агрегация нотификаций | ||
| + | * Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana | ||
| + | |||
| + | ===== Черновик ===== | ||
| + | |||
| + | * Процент и время задержки писем через greylist | ||