> Назови примеры метрик для алертов (Go)

Уровень: senior · Роль: backend · Категория: Технические вопросы

Компании: Wildberries, Ozon

Стек: Go

> Пример ответа

Для алертов в Go-сервисах чаще всего используют метрики, отражающие ключевые аспекты здоровья системы. Вот основные примеры:

Латентность (p99, p95) - время ответа на запросы. Если p99 превышает порог (например, >500 мс), это сигнал к алерту.
Частота ошибок (5xx, 4xx) - процент неудачных запросов. Например, >1% ошибок 5xx за 5 минут.
Пропускная способность (RPS) - резкое падение или рост трафика (например, падение на 50% за минуту).
Использование ресурсов - CPU, память, открытые соединения (например, >90% CPU в течение 5 минут).
Длина очередей - например, количество сообщений в Kafka или задач в worker pool, превышающее лимит.
Время простоя (uptime) - если сервис не отвечает на health check (например, /health) более 30 секунд.
Скорость утечки горутин - резкий рост числа горутин (например, >10 000) может указывать на deadlock или утечку.

Эти метрики собираются через Prometheus и проверяются в Alertmanager с правилами, например: rate(http_requests_duration_seconds_count{status=~"5.."}[5m]) > 0.01.