> Назови примеры метрик для алертов (Go)

Уровень: senior · Роль: backend · Категория: Технические вопросы

Компании: Wildberries, Ozon

Стек: Go

> Пример ответа

Для алертов в Go-сервисах чаще всего используют метрики, отражающие ключевые аспекты здоровья системы. Вот основные примеры:

  1. Латентность (p99, p95) - время ответа на запросы. Если p99 превышает порог (например, >500 мс), это сигнал к алерту.

  2. Частота ошибок (5xx, 4xx) - процент неудачных запросов. Например, >1% ошибок 5xx за 5 минут.

  3. Пропускная способность (RPS) - резкое падение или рост трафика (например, падение на 50% за минуту).

  4. Использование ресурсов - CPU, память, открытые соединения (например, >90% CPU в течение 5 минут).

  5. Длина очередей - например, количество сообщений в Kafka или задач в worker pool, превышающее лимит.

  6. Время простоя (uptime) - если сервис не отвечает на health check (например, /health) более 30 секунд.

  7. Скорость утечки горутин - резкий рост числа горутин (например, >10 000) может указывать на deadlock или утечку.

Эти метрики собираются через Prometheus и проверяются в Alertmanager с правилами, например: rate(http_requests_duration_seconds_count{status=~"5.."}[5m]) > 0.01.

> ГОТОВЫ К СЛЕДУЮЩЕМУ СОБЕСЕДОВАНИЮ?

Запустите тренировочную сессию с ИИ и получите детальную обратную связь, чтобы увереннее проходить реальные интервью