User Tools

Site Tools


prometheus_grafana_loki_-_observability

This is an old revision of the document!


Prometheus, Grafana, Loki - Observability

Реклама

  • Мониторинг не нужен, если он формален и не нацелен на бизнес-результат
  • Observability — переход от простого сбора метрик к пониманию влияния ИТ-решений на бизнес-показатели, прогнозированию сбоев и автоматизации реагирования
  • Бизнес-метрики - мониторинг не сервисов, а действий пользователя (например, количество успешных подключений)
  • Умные оповещения - должны приходить только при реальной угрозе для сервиса а не по каждому незначительному отклонению
  • Автоматизация - запуск процедур восстановления параллельно с уведомлениями инженеров

Техническое задание

  • Настроить учет работы систем, сервисов и сетей предприятия с точки зрения: метрик (Service Level Indicator - SLI), целей команды предприятия (Service Level Objective - SLO) и гарантий для клиентов (Service Level Agreement - SLA)

Модуль 1. Основы наблюдаемости и архитектура стека

Теория

  • SLA (Service Level Agreement) и SLO (Service Level Objective)
  • Метрики, Логи, Трейсы, Чем отличается мониторинг от наблюдаемости
  • Роль каждого компонента (Prometheus, Grafana, Loki) в экосистеме

Практика

Модуль 2. Сбор и анализ метрик с Prometheus

  • Настройка экспортера (prometheus-node-exporter для метрик ОС), принцип pull-модели
  • Язык Запросы PromQL: Изучение типов данных (счетчики, измеряемые величины, гистограммы), операторов и агрегаций
  • Оценка загрузки CPU, RAM, сети, задержки ввода/вывода
  • Service Discovery
  • Настройка экспортера (prometheus-pushgateway и Пример сбора метрик из приложения, которое работает периодически, использование push-модели

Модуль 3. Централизация логов с Loki

  • Установка Grafana Loki
  • Установка и настройка Promtail для доставки логов приложений и системных журналов
  • Язык LogQL, фильтрация и анализ логов (поиск ошибок, парсинг JSON, агрегация статистики по логам)

Модуль 4. Визуализация данных и дашборды в Grafana

  • Создание Grafana dashboard, типы панелей (Time series, Table, Stat, Logs), настройка внешнего вида и переменных, интерактивные дашборды
  • Пример дашборда “Мониторинг сервиса” с метриками приложения, статусами сервисов от которыых оно зависит и виджетами последних ошибок из логов

Модуль 5. Алертинг и обнаружение проблем

  • Prometheus + Alertmanager, создание правил алертинга (например, “сервер не отвечает”, “много 500-х ошибок”)
  • Настройка маршрутизации уведомлений (Email, Telegram)
  • Управление инцидентами, настройка silence (подавление алертов), агрегация нотификаций
  • Grafana Alerting, настройка алертов непосредственно в интерфейсе Grafana

Идеи для курса

  • Процент и время задержки писем через greylist

Черновик

prometheus_grafana_loki_-_observability.1778652122.txt.gz · Last modified: 2026/05/13 09:02 by val