Справочник алертов мониторинга¶
В справочнике приведены алерты мониторинга платформы KeyStack с описанием метрик, порогов срабатывания и рекомендуемых действий.
Инфраструктура¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
Node |
Свободное место на файловой системе |
Нехватка свободного места на файловой системе |
Возможен отказ ключевых сервисов, таких как sshd, auditd, logrotate Может наступить отказ в работе docker-контейнеров сервисов виртуализации Ситуация требует анализа |
На узле с помощью команды 'df -h' проверить, какая файловая система израсходовала свободное место. Далее с помощью команды 'du -hd1 /*' проанализировать размер каталогов/файлов. При необходимости освободить место либо расширить файловую систему. |
SystemDiskFull |
KeyStack - System |
node_exporter |
node_filesystem_free_bytes / node_filesystem_size_bytes |
Warning, если занято >=85% дискового пространства Critical, если занято >= 95% дискового пространства |
Node |
Свободные inode на файловой системе |
Слишком много файлов в системе |
Может влиять на возможность создавать новые файлы Может возникать перегрузка ядра при работе с файловыми дескрипторами |
На узле с помощью команды 'df -ih' проанализировать, на какой файловой системе закончились inode. С помощью инструментов 'lsof', 'ps' и /proc/PID/fd продиагностировать, какими процессами активно используются inode. Временно может помочь удаление старых журналов системы. |
SystemDiskInodesFull |
KeyStack - System |
node_exporter |
node_filesystem_files_free / node_filesystem_files |
Warning, если занято >=85% inodes Critical, если занято >= 95% inodes |
Node |
Средняя нагрузка за 15 минут |
Виртуальные машины на узле стали потреблять больше ресурсов процессора, чем раньше |
Виртуальные машины могут получать меньше процессорного времени, что может вызвать снижение их отзывчивости Может расти значение iowait time, steal time в выводе утилит подобных top |
С помощью 'htop' или 'top' выявить наиболее активных потребителей процессорного времени. Проанализировать исторические данные по нагрузке на процессор. Проанализировать данные по потреблению процессорных ресурсов виртуальными машинами. Проверить работу сервиса DRS: сервис мог не успеть отработать (или по иным причинам не стал распределять ВМ по гипервизорам) и требуется ручное перераспределение ВМ. |
SystemLoadTooHigh |
KeyStack - System |
node_exporter |
(node_load15) / count by (instance) (count by (cpu, instance) (node_cpu_seconds_total)) |
Warning, если отношение средней нагрузки за 15 мин к количеству ядер > 1 Critical, если отношение средней нагрузки за 15 мин к количеству ядер > 2 |
Node |
Использование оперативной памяти |
Повышенное давление на память узла |
Может наступить событие Out-Of-Memory с принудительным завершением процессов с низким приоритетом у планировщика ядра |
Проанализировать графики загрузки памяти. С помощью 'htop' или 'top' выявить наиболее активных потребителей памяти. Диагностировать процессы на предмет утечки памяти. Оценить значения в '/proc/meminfo': распределение страниц памяти, '/proc/buddyinfo': фрагментацию памяти разного порядка. Оценить необходимость миграции ВМ на другой гипервизор. |
SystemMemoryFull |
KeyStack - System |
node_exporter |
(1 - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes) / node_memory_MemTotal_bytes) * 100 and node_memory_MemAvailable_bytes |
Warning, если занято > 90% ОЗУ и свободно < 8Gb ОЗУ Critical, если занято > 95% ОЗУ и свободно < 4Gb ОЗУ |
Node |
Количество отбрасываемых пакетов на приём |
Может означать ошибку в конфигурации сетевых интерфейсов Может означать неисправность физического оборудования |
Может снижаться скорость передачи данных по сети |
Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, сетевой карты, порта коммутатора. Проверить настройки порта на коммутаторе. Проверить настройки сетевого интерфейса. |
SystemRxPacketsDroppedTooHigh |
KeyStack - System |
node_exporter |
node_network_receive_drop_total |
Warning, если количество потерянных пакетов > 60 в мин |
Node |
Количество отбрасываемых пакетов на отправку |
Может означать ошибку в конфигурации сетевых интерфейсов Может означать неисправность физического оборудования |
Может снижаться скорость передачи данных по сети |
Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, сетевой карты, порта коммутатора. Проверить настройки порта на коммутаторе. Проверить настройки сетевого интерфейса. |
SystemTxPacketsDroppedTooHigh |
KeyStack - System |
node_exporter |
node_network_transmit_drop_total |
Warning, если количество потерянных пакетов > 60 в мин |
Node |
Количество пакетов с ошибками на получение |
Может означать ошибку в конфигурации сетевых интерфейсов Может означать неисправность физического оборудования |
Может снижаться скорость передачи данных по сети |
Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, сетевой карты, порта коммутатора. Проверить настройки порта на коммутаторе. Проверить настройки сетевого интерфейса. |
SystemRxPacketsErrorTooHigh |
KeyStack - System |
node_exporter |
node_network_receive_errs_total |
Warning, если количество ошибок > 0 |
Node |
Количество пакетов с ошибками на отправку |
Может означать ошибку в конфигурации сетевых интерфейсов Может означать неисправность физического оборудования |
Может снижаться скорость передачи данных по сети |
Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, сетевой карты, порта коммутатора. Проверить настройки порта на коммутаторе. Проверить настройки сетевого интерфейса. |
SystemTxPacketsErrorTooHigh |
KeyStack - System |
node_exporter |
node_network_transmit_errs_total |
Warning, если количество ошибок > 0 |
Node |
Рассинхронизация времени между узлом и источником времени |
Рассинхронизация времени на узле и сетевым источником времени |
Может вызывать нарушение в работе сервисов, которые зависят от синхронизации времени между узлами В частности может происходить отказ keystone в авторизации |
Проверить работоспособность NTP сервиса на узле. Проверить, что в конфигурации NTP сервиса указаны корректные серверы времени. Проверить сетевую доступность серверов времени. Просмотреть содержимое лог-файлов NTP сервиса. |
ClockSkewDetected |
KeyStack - System |
node_exporter |
node_timex_offset_seconds |
Warning, если расхождение времени > 0.03 сек |
Node |
Отсутствие синхронизации времени |
Нет синхронизации с узлом сетевого времени |
Может вызывать нарушение в работе сервисов, которые зависят от синхронизации времени между узлами В частности может происходить отказ keystone в авторизации |
Проверить работоспособность NTP сервиса на узле. Проверить, что в конфигурации NTP сервиса указаны корректные серверы времени. Проверить сетевую доступность серверов времени. Просмотреть содержимое лог-файлов NTP сервиса. |
HostClockNotSynchronising |
KeyStack - System |
node_exporter |
node_timex_sync_status node_timex_maxerror_seconds |
Warning, если часы на узле не синхронизируется (node_timex_sync_status = 0) и максимальная ошибка >= 16 сек |
Node |
Перезагрузка узла |
Может означать недавнюю перезагрузку узла |
Недоступность узла на время перезагрузки Возможен неправомерный доступ, аппаратные и/или программные причины |
В случае нештатной перезагрузки проанализировать журналы узла для выявления причин перезагрузки. |
InstanceRebooted |
KeyStack - System |
node_exporter |
(time() - node_boot_time_seconds) |
Critical, если аптайм узла < 900 сек |
Node |
Код ответа на HTTP запросы к заданным эндпоинтам |
Точки входа управляющих сущностей доступны по сети, но отдают неправильные коды ответа |
Невозможность взаимодействия сервисов между собой |
Проанализировать журналы keystone и других компонентов, влияющих на общение сервисов друг с другом через API (например haproxy, mariadb). Проверить статус docker-контейнеров. Проанализировать журналы docker-контейнеров. |
BlackboxProbeHttpFailureMoreThan5min |
KeyStack - System |
blackbox_exporter |
probe_http_status_code |
Critical, если код ответа <= 199 или >= 402 |
Node |
Утилизация CPU |
Может означать высокое потребление процессорного времени каким-либо процессом |
Узел оказался под нагрузкой ВМ и управляющие процессы будут получать меньше процессорного времени, что может повлечь деградацию производительности или отказ в обслуживании |
С помощью 'htop' или 'top' выявить наиболее активных потребителей процессорного времени. Проанализировать исторические данные по нагрузке на процессор. Проанализировать данные по потреблению процессорных ресурсов. |
SystemCpuFull |
KeyStack - System |
node_exporter |
node_cpu_seconds_total |
Warning, если утилизация CPU >= 60% Immediate, если утилизация CPU >= 80% Critical, если утилизация CPU >= 90% |
Node |
Сбой ОЗУ |
Сработала аппаратная коррекция памяти Потенциально опасная ситуация |
Может привести к непредвиденной потере данных |
Перевести узел в режим обслуживания (maintenance mode), провести диагностику и анализ журналов. При необходимости произвести замену модуля памяти. |
HostEdacCorrectableErrorsDetected |
KeyStack - System |
node_exporter |
increase(node_edac_correctable_errors_total[5m]) |
Info, если количество устранимых ошибок ОЗУ > 0 |
Node |
Сбой ОЗУ |
Обнаружена неисправимая ошибка в памяти Опасная ситуация |
Может привести к непредвиденной потере данных |
Перевести узел в режим обслуживания (maintenance mode), провести диагностику и анализ журналов. При необходимости произвести замену модуля памяти. |
HostEdacUncorrectableErrorsDetected |
KeyStack - System |
node_exporter |
increase(node_edac_uncorrectable_errors_total[5m]) |
Warning, если количество неустранимых ошибок ОЗУ > 0 |
Node |
Статус сетевого интерфейса |
Сетевой интерфейс перестал быть активным |
Влияет на все функции работы узла |
Необходимо подключиться к управляющему интерфейсу или консоли узла. Проверить отсутствие ошибок аппаратного обеспечения. Проверить функционирование операционной системы. Проверить статус сетевых интерфейсов. Проанализировать журналы на узле на предмет ручного отключения сетевого интерфейса. |
Host interface state |
KeyStack - System |
node_exporter |
node_network_up{device=~"^mgmt|^external|^bond.+"} |
Warning, если статус интерфейсов с именами mgmt, external, bond* != 1 (link down) |
Node |
Флаппинг сетевого интерфейса |
Может означать ошибку в конфигурации сетевых интерфейсов Может означать неисправность физического оборудования |
Может снижаться скорость передачи данных по сети Может влиять на сетевую доступность узла |
Проверить отсутствие ошибок аппаратного обеспечения. Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, сетевой карты, порта коммутатора. Проверить настройки порта на коммутаторе. Проверить настройки сетевого интерфейса. |
Network interface flapping |
KeyStack - System |
node_exporter |
node_network_carrier_changes_total |
Warning, если > 1.6 |
Node |
Сбой на устройстве файловой системы |
Файловая система деградирует |
Влияет на стабильность работы узла Возможна потеря данных на файловой системе |
Проанализировать журналы узла в dmesg. Произвести диагностику дисковой системы. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
HostFilesystemDeviceError |
KeyStack - System |
node_exporter |
node_filesystem_device_error |
Critical, если значение = 1 |
Node |
Наличие событий OOM kill |
Аварийное состояние узловой системы Повышенное давление на память узла |
Влияет на стабильность работы узла |
На узле проверить состояние процессов с помощью инструментов top, htop, ps. Проанализировать журнал dmesg. Определить процессы с повышенным потреблением памяти. Определить процессы с растущим потреблением памяти. При необходимости уменьшить нагрузку на узел. |
HostOomKillDetected |
KeyStack - System |
node_exporter |
node_vmstat_oom_kill |
Warning, если значение > 0 |
Node |
Установленный режим работы CPUfreq governor |
Неоптимальный для ВМ режим работы центрального процессора |
Неоптимальный для ВМ режим работы всего узла |
Изменить настройки узла для смены режима работы центрального процессора на 'performance'. Проанализировать журналы доступа к настройке оборудования. При необходимости передать оборудование в ремонт. |
CPUgovernorNotPerformanceMode |
KeyStack - System |
node_exporter |
node_cpu_scaling_governor{governor!="performance"} |
Warning, если количество ядер с режимом, отличным от performance, != 0 |
Node |
Дубликат IPv4 на узлах |
В сети обнаружено несколько узлов с одинаковым IP адресом |
Нарушение сетевого взаимодействия узлов с одинаковыми IP адресами и остальным сетевым окружением |
Выявить узлы с одинаковыми IP адресами. Для каждого затронутого узла установить уникальный IP адрес. |
HostDuplicateIPAddressDetected |
KeyStack - System |
node_exporter |
count by (address) (node_network_address_info{scope="global"}) |
|
Node |
Состояние узла |
Недоступность узла |
Возможно нарушение работоспособности отдельных компонентов облака |
Необходимо подключиться к управляющему интерфейсу или консоли узла. Проверить отсутствие ошибок аппаратного обеспечения. Проверить функционирование операционной системы. Проверить статус сетевых интерфейсов. Проанализировать журналы на узле на предмет ошибок. |
Host state |
KeyStack - System |
node_exporter |
up{job!~"redfish_exporter|blackbox_exporter.*"} |
Warning, если sum by (node_address) = 0 в течение 5 мин |
Node |
Состояние узла |
Узел выключен или неработоспособность экспортёра |
Недоступность гипервизора или управляющей ноды Отсутствие мониторинга и сбора метрик с узла Возможно нарушение работоспособности отдельных компонентов облака |
Убедиться в работоспособности контейнера node. Проверить журналы контейнера. Проверить легитимность нахождения узла в выключенном состоянии. |
NodeExporterTargetDown |
KeyStack - System |
node_exporter |
up{job="node"} |
Warning, если = 0 в течение 5 мин |
Node |
Состояние сетевых bond |
Агрегированный интерфейс не активен |
Влияет на все функции работы узла |
Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, сетевой карты, порта коммутатора. Проверить настройки и режим работы агрегации. Проверить настройки порта на коммутаторе. |
Host Network Bond Degraded |
KeyStack - System |
node_exporter |
node_bonding_active - node_bonding_slaves |
Warning, если разница между количеством активных интерфейсов и количеством резервных != 0 |
Node |
Утилизация сетевого интерфейса |
Высокая нагрузка на сеть |
Потенциально может привести к недоступности узла или облака |
Проанализировать потребление сетевого трафика на узле, например с помощью инструмента 'iftop'. Проанализировать сетевые подключения с помощью инструмента 'ss'. |
High network utilization |
KeyStack - System |
node_exporter |
((rate(node_network_transmit_bytes_total{device=~"^bond.+|^mgmt"}[5m]) + rate(node_network_receive_bytes_total{device=~"^bond.+|^mgmt"}[5m])) / node_network_speed_bytes{device=~"^bond.+|^mgmt"}) * 100 |
Warning, если загрузка сетевого интерфейса > 70% от пропускной способности Immediate, если загрузка сетевого интерфейса > 80% от пропускной способности Critical, если загрузка сетевого интерфейса > 90% от пропускной способности |
Node |
Ошибки линка FC |
Сбой в работе FibreChannel соединения |
Возможно замедление или полная блокировка работы блочных устройств ВМ |
Проанализировать журнал dmesg. Проверить отсутствие ошибок аппаратного обеспечения. Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, FC-адаптера, порта коммутатора. Проанализировать журналы FC-фабрик. |
FC link failure |
KeyStack - System |
node_exporter |
node_fibrechannel_link_failure_total |
Warning, если в течение 5 мин количество ошибок > 0 |
Node |
Потеря сигнала FC |
Сбой в работе FibreChannel соединения |
Возможно замедление или полная блокировка работы блочных устройств ВМ |
Проанализировать журнал dmesg. Проверить отсутствие ошибок аппаратного обеспечения. Проверить состояние физического оборудования: состояние патч-кордов, патч-панелей, FC-адаптера, порта коммутатора. Проанализировать журналы FC-фабрик. |
FC loss signal |
KeyStack - System |
node_exporter |
node_fibrechannel_loss_of_signal_total |
Warning, если в течение 5 мин значение > 0 |
Node |
Срок действия SSL сертификата |
Срок действия SSL сертификата в цепочке истекает в течение 90 дней |
Влияет на работоспособность и доступность сервисов облака |
Проверить срок действия каждого сертификата в цепочке. При необходимости выпустить новый сертификат и произвести его замену. |
SSL certificate expiration soon |
KeyStack - System |
blackbox_exporter |
probe_ssl_earliest_cert_expiry{job="blackbox_exporter"} - time() |
Warning, если до окончания срока действия сертификата < 30 и > 29 дней Critical, если до окончания срока действия сертификата < 14 дней |
Node |
Сетевая недоступность nova-api |
Точки входа управляющих сущностей или недоступны по сети, или отдают неправильные коды ответа |
Невозможность взаимодействия сервисов между собой на затронутых узлах |
Проверить сетевую связность между управляющими узлами и корректность маршрутов. Проверить статус контейнера nova_api на соответствующем управляющем узле. Проверить журналы контейнера. |
BlackboxProbeHttpNovaApi |
KeyStack - System |
blackbox_exporter |
probe_http_status_code{job="blackbox_exporter_blackhole_check"} |
Critical, если код ответа <= 199 или >= 402 |
Region |
Утилизация vCPU на узле с учётом переподписки |
Переподписка на ресурсы процессора превышает допустимую норму |
Возможно замедление работы и повышенная нагрузка на центральный процессор, и потенциально потеря данных в случайных процессах |
С помощью 'htop' или 'top' выявить наиболее активных потребителей процессорного времени. Проанализировать исторические данные по нагрузке на процессор. Проанализировать данные по потреблению процессорных ресурсов виртуальными машинами. Проверить работу сервиса DRS: сервис мог не успеть отработать (или по иным причинам не стал распределять ВМ по гипервизорам) и требуется ручное перераспределение ВМ. |
Cluster CPU oversubscription |
KeyStack - System |
openstack_exporter |
openstack_placement_resource_usage{resourcetype="VCPU"} / (openstack_placement_resource_total{resourcetype="VCPU"} * 100 |
Warning, если утилизировано с учётом переподписки > 90% vCPU |
Region |
Утилизация памяти на узле с учётом переподписки |
Высокое использование памяти на гипервизорах |
Возможно замедление работы ВМ, возможны локальные сбои в работе Возможны события Out Of Memory |
Проанализировать графики загрузки памяти. С помощью 'htop' или 'top' выявить наиболее активных потребителей памяти. Диагностировать процессы на предмет утечки памяти. Оценить значения в '/proc/meminfo': распределение страниц памяти, '/proc/buddyinfo': фрагментацию памяти разного порядка. Проверить работу сервиса DRS: сервис мог не успеть отработать (или по иным причинам не стал распределять ВМ по гипервизорам) и требуется ручное перераспределение ВМ. |
Cluster memory oversubscription |
KeyStack - System |
openstack_exporter |
openstack_placement_resource_usage{resourcetype="MEMORY_MB"} / (openstack_placement_resource_total{resourcetype="MEMORY_MB"} *100 |
Immediate, если на узле утилизировано с учётом переподписки >= 90% памяти |
Node |
Состояние systemd сервиса на узле |
Systemd сервис был остановлен |
Отказоустойчивость облака или доступность сервисов может быть нарушена |
Зайти на узел и посмотреть статус сервиса. Посмотреть вывод journalctl по данному сервису. Посмотреть журналы сервиса. Проверить конфигурацию сервиса. |
SystemdServiceStopped |
KeyStack - Systemd |
node_exporter |
node_systemd_unit_state{state="active"} |
Warning, если = 0 |
Node |
Состояние systemd сервиса на всех узлах |
Systemd сервис был остановлен |
Отказоустойчивость облака или доступность сервисов может быть нарушена |
Зайти на узел и посмотреть статус сервиса. Посмотреть вывод journalctl по данному сервису. Посмотреть журналы сервиса. Проверить конфигурацию сервиса. |
SystemdServiceOutage |
KeyStack - Systemd |
node_exporter |
node_systemd_unit_state{state="active"} |
Critical, если sum by (name) = 0 |
Node |
Состояние systemd сервиса на узле |
Зафиксирован перезапуск Systemd сервиса |
Отказоустойчивость облака или доступность сервисов может быть нарушена |
Зайти на узел и посмотреть статус сервиса. Посмотреть вывод journalctl по данному сервису. Посмотреть журналы сервиса. Проверить конфигурацию сервиса. |
SystemdServiceRestarts |
KeyStack - Systemd |
node_exporter |
rate(node_systemd_service_restart_total[5m]) |
Warning, если > 0 |
OpenStack¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
Cinder |
Состояние cinder-агента на узле |
Сбой работы агента работы с блочными хранилищами |
Могут не подключаться новые хранилища к узлу Возможен сбой запуска ВМ |
Убедиться в работоспособности контейнера cinder_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
CinderServiceDown |
KeyStack - Cinder |
openstack_exporter |
openstack_cinder_agent_state{adminState="enabled"} |
Warning, если статус cinder-агента установлен в enabled, но его текущий статус = 0 (cinder-агент не запущен на данном узле) |
Cinder |
Состояние cinder-агентов в регионе |
Сбой работы агента работы с блочными хранилищами |
Могут не подключаться новые хранилища к узлу Возможен сбой запуска ВМ |
Убедиться в работоспособности контейнера cinder_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
CinderServiceOutage |
KeyStack - Cinder |
openstack_exporter |
sum by (service) (openstack_cinder_agent_state{adminState="enabled"}) |
Critical, если статус cinder-агентов установлен в enabled, но текущий статус всех cinder-агентов = 0 (во всём регионе нет ни одного запущенного cinder-агента) |
Cinder |
Статус cinder-агентов в регионе |
Сбой работы агента работы с блочными хранилищами |
Могут не подключаться новые хранилища к узлу Возможен сбой запуска ВМ |
Убедиться в работоспособности контейнера cinder_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
CinderServiceDisabled |
KeyStack - Cinder |
openstack_exporter |
count by (service)(openstack_cinder_agent_state{adminState="enabled"}) |
Critical, если количество cinder-агентов со статусом enable = 0 (все cinder-агенты в регионе отключены) |
Cinder |
Утилизация cinder-пула |
Нехватка свободного места на системе хранения данных |
Могут перестать создаваться новые ВМ Ранее созданные ВМ могут быть остановлены Возможна потеря данных внутри ВМ Ситуация требует анализа |
При необходимости освободить место либо расширить дисковую ёмкость. |
CinderPoolFull |
KeyStack - Cinder |
openstack_exporter |
(openstack_cinder_pool_capacity_total_gb - openstack_cinder_pool_capacity_free_gb) / openstack_cinder_pool_capacity_total_gb * 100 |
Warning, если > 80 Immediate, если > 90 Critical, если > 95 |
Cinder |
Диск ВМ долго находится в статусе attaching |
Диск ВМ длительное время не может сменить статус 'attaching' на статус 'in-use' |
ВМ не может использовать диск Возможно отключение дисков ВМ при неуспешных попытках миграции ВМ с диском в статусе 'attaching' |
Убедиться в работоспособности контейнера cinder_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
CinderVolumeAttachingStateLongTime |
KeyStack - Cinder |
openstack_exporter |
openstack_cinder_volume_gb{status="attaching"} |
Warning, если статус не меняется более 5 мин |
Cinder |
Диск ВМ долго находится в статусе error |
Диск ВМ длительное время находится в статусе 'error' |
ВМ не может использовать диск |
Убедиться в работоспособности контейнера cinder_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
CinderVolumeErrorStateLongTime |
KeyStack - Cinder |
openstack_exporter |
openstack_cinder_volume_gb{status="error"} |
Warning, если статус не меняется более 5 мин |
Cinder |
Зафиксирован снапшот старше 14 дней |
Зафиксирован снапшот старше 14 дней |
Повышенная утилизация дисковой ёмкости Большое количество снапшотов может влиять на время выполнения некоторых запросов, связанных со снапшотами или дисковыми томами |
Убедиться в необходимости хранения снапшота. |
CinderSnapshotTooOld |
KeyStack - Cinder |
openstack_exporter |
time() - openstack_cinder_snapshot |
Warning, если > 14 дней |
Nova |
Состояние nova-агента на узле |
Сбой агента сервиса работы с ВМ |
Могут перестать создаваться новые ВМ Ранее созданные ВМ могут остаться без управления |
Убедиться в работоспособности контейнера nova_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NovaServiceDown |
KeyStack - Nova |
openstack_exporter |
openstack_nova_agent_state{adminState="enabled"} |
Warning, если статус nova-агента установлен в enabled, но его текущий статус = 0 (nova-агент не запущен на данном узле) |
Nova |
Состояние nova-агентов в регионе |
Сбой агента сервиса работы с ВМ |
Могут перестать создаваться новые ВМ Ранее созданные ВМ могут остаться без управления |
Убедиться в работоспособности контейнера nova_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NovaServiceOutage |
KeyStack - Nova |
openstack_exporter |
sum by(service) (openstack_nova_agent_state{adminState="enabled"}) |
Critical, если статус nova-агентов установлен в enabled, но текущий статус всех nova-агентов = 0 (во всём регионе нет ни одного запущенного nova-агента) |
Nova |
Статус nova-агентов в регионе |
Сбой агента сервиса работы с ВМ |
Могут перестать создаваться новые ВМ Ранее созданные ВМ могут остаться без управления |
Убедиться в работоспособности контейнера nova_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NovaServiceDisabled |
KeyStack - Nova |
openstack_exporter |
count by (service)(openstack_nova_agent_state{adminState="enabled"}) |
Critical, если количество nova-агентов со статусом enable = 0 (все nova-агенты в регионе отключены) |
Nova |
Состояние nova-агента на узле |
Отключен сервис агента работы с ВМ |
Могут перестать создаваться новые ВМ Ранее созданные ВМ могут остаться без управления |
Проанализировать причину отключения, указанную в статусе агента. Убедиться в работоспособности контейнера nova_*. Проверить журналы контейнера. Убедиться в работоспособности контейнера libvirt_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NovaServiceAutoDisabled |
KeyStack - Nova |
openstack_exporter |
openstack_nova_agent_state{disabledReason=~"AUTO:.+|BOND_DISABLED:.+|FENCED:.+"} |
Warning, если в течение 5 мин nova agent имеет соответствующие disabledReason |
Nova |
Перевод гипервизора в Maintenance mode |
Гипервизор был переведен в режим обслуживания |
Гипервизор не готов для рабочих нагрузок |
Проверить, что перевод гипервизора в режим обслуживания (Maintenance mode) был произведён в плановом порядке. Проверить корректность миграции ВМ на остальные гипервизоры. В случае незапланированного перевода гипервизора в режим обслуживания проанализировать журналы для выявления причины изменения режима работы. |
ComputeNodeInMM |
KeyStack - Nova |
openstack_exporter |
openstack_nova_agent_state{adminState="disabled",disabledReason="maintenance mode.*|Service was transitioned to MaintenanceMode.",service="nova-compute"} |
Warning, если условие выполняется |
Nova |
Гипервизор не смог перейти в Maintenance mode |
Гипервизор не смог перейти в режим обслуживания |
Гипервизор не готов для рабочих нагрузок |
Проверить, что попытка перевода гипервизора в режим обслуживания (Maintenance mode) была произведена в плановом порядке. Проанализировать журналы для выявления причины изменения режима работы. Проанализировать журналы и значение error_details для выявления причины невозможности изменения режима работы. |
ComputeNodeToMMerror |
KeyStack - Nova |
openstack_exporter |
openstack_nova_agent_state{adminState="disabled",disabledReason="Service was transitioned to Error.",service="nova-compute"} |
Warning, если условие выполняется |
Neutron |
Состояние neutron-агента на узле |
Сбой работы агента работы с виртуальными сетями |
Возможно нарушение сетевой связности с ВМ Возможен сбой при создании новых ВМ |
Убедиться в работоспособности контейнера neutron_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NeutronServiceDown |
KeyStack - Neutron |
openstack_exporter |
openstack_neutron_agent_state{adminState="up"} |
Warning, если статус neutron-агента установлен в up, но его текущий статус = 0 (neutron-агент не запущен на данном узле) |
Neutron |
Состояние neutron-агентов в регионе |
Сбой работы агента работы с виртуальными сетями |
Возможно нарушение сетевой связности с ВМ Возможен сбой при создании новых ВМ |
Убедиться в работоспособности контейнера neutron_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NeutronServiceOutage |
KeyStack - Neutron |
openstack_exporter |
sum by(service) (openstack_neutron_agent_state{adminState="up"}) |
Critical, если статус neutron-агентов установлен в up, но текущий статус всех neutron-агентов = 0 (во всём регионе нет ни одного запущенного neutron-агента) |
Neutron |
Статус neutron-агентов в регионе |
Сбой работы агента работы с виртуальными сетями |
Возможно нарушение сетевой связности с ВМ Возможен сбой при создании новых ВМ |
Убедиться в работоспособности контейнера neutron_*. Проверить журналы контейнера. Проверить состояние RabbitMQ. |
NeutronServiceDisabled |
KeyStack - Neutron |
openstack_exporter |
count by (service)(openstack_neutron_agent_state{adminState="up"}) |
Critical, если количество neutron-агентов со статусом up = 0 (все neutron-агенты в регионе отключены) |
Nova |
Состояние libvirt exporter |
Может означать: неработоспособность экспортёра и невозможность отдавать метрики недоступность узла |
Отсутствие мониторинга и сбора метрик ВМ |
Убедиться в работоспособности контейнеров libvirt. Проверить журналы контейнера. |
LibvirtDown |
KeyStack - Libvirt |
libvirt_exporter |
libvirt_up |
Critical, если статус !=1 (экспортёр выключен) |
Nova |
Сбор всех метрик с libvirt exporter с узла |
Может означать: неработоспособность экспортёра и невозможность отдавать метрики недоступность узла Сбой в сети |
Отсутствие мониторинга и сбора метрик ВМ |
Убедиться в работоспособности контейнеров libvirt. Проверить журналы контейнера. |
LibvirtExporterTargetDown |
KeyStack - Libvirt |
node_exporter |
avg_over_time(max by (instance) (up{job="libvirt_exporter"})[5m:30s]) |
Critical, если среднее количество успешных сборов метрик на определённом узле < 0.85 (наблюдается пропуск сбора метрик на узле) |
Nova |
Сбор всех метрик с libvirt exporter со всех узлов |
Может означать: неработоспособность экспортёра и невозможность отдавать метрики недоступность узла Сбой в сети |
Отсутствие мониторинга и сбора метрик ВМ |
Убедиться в работоспособности контейнеров libvirt. Проверить журналы контейнера. |
LibvirtExporterTargetOutage |
KeyStack - Libvirt |
node_exporter |
max(avg_over_time(max by (instance) (up{job="libvirt_exporter"})[5m:30s])) |
Critical, если среднее количество успешных сборов метрик для всех узлов < 0.85 (наблюдается пропуск сбора метрик на каком-то узле) |
Haproxy |
Состояние балансировщика |
Неработоспособность балансировщика или сетевая недоступность балансировщика |
Влияет на работоспособность облака, доступность отдельных компонентов облака, на доступность API сервисов |
Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера haproxy. |
HAProxyInstanceDown |
KeyStack - HAproxy |
haproxy_exporter |
up{job="haproxy"} |
Warning, если avg_over_time(max by (instance) (up{job="haproxy"})[5m:30s]) < 0.85 |
Haproxy |
Состояние балансировщика |
Неработоспособность балансировщика или сетевая недоступность балансировщика |
Влияет на работоспособность облака, доступность отдельных компонентов облака, на доступность API сервисов |
Убедиться в работоспособности контейнеров haproxy. Проверить журналы контейнера. Проверить конфигурацию балансировщика. |
HAProxyInstanceOutage |
KeyStack - HAproxy |
haproxy_exporter |
up{job="haproxy"} |
Critical, если max(avg_over_time(max by (instance) (up{job="haproxy"})[5m:30s])) < 0.85 |
Haproxy |
Состояние бэкенда на балансировщике |
Неработоспособность бэкенда (сервиса) или его сетевая недоступность на всех узлах (во всём пуле балансировки) |
Влияет на работоспособность облака, доступность отдельных компонентов облака, на доступность API сервисов |
Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера haproxy. Убедиться в работоспособности docker-контейнера соответствующего бэкенда (сервиса). Проверить журналы контейнера соответствующего бэкенда. Проверить конфигурацию соответствующего бэкенда. |
HAProxyBackendDown |
KeyStack - HAproxy |
haproxy_exporter |
haproxy_backend_status |
Critical, если haproxy_backend_status{state!="UP"} = 1 |
Haproxy |
Состояние сервера в пуле на балансировщике |
Неработоспособность бэкенда (сервиса) или его сетевая недоступность |
Влияет на работоспособность облака, доступность отдельных компонентов облака, на доступность API сервисов |
Убедиться в работоспособности и доступности соответствующего узла. Убедиться в работоспособности docker-контейнера соответствующего бэкенда (сервиса). Проверить журналы контейнера соответствующего бэкенда. Проверить конфигурацию соответствующего бэкенда. Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера haproxy. |
HAProxyServerDown |
KeyStack - HAproxy |
haproxy_exporter |
haproxy_server_status |
Critical, если haproxy_server_status{state!="UP"} = 1 |
Haproxy |
Результаты health check балансировщика |
Не пройдена проверка health check для сервера (бэкенда) в пуле балансировки |
Влияет на работоспособность облака, доступность отдельных компонентов облака, на доступность API сервисов |
Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера haproxy. Убедиться в работоспособности docker-контейнера соответствующего бэкенда (сервиса). Проверить журналы контейнера соответствующего бэкенда. |
HAProxyServerHealthcheckFailure |
KeyStack - HAproxy |
haproxy_exporter |
sum by (proxy, server) (rate(haproxy_server_check_failures_total[5m])) |
Warning, если количество непройденных тестов за 5 мин > 0 |
Haproxy |
Наличие ошибок со статусом 5хх в ответе бэкендов |
Сбой в работе БД или иных компонентов сервиса Переполнение по количеству запросов |
Неработоспособность сервисов или облака в целом |
Проверить сетевую доступность соответствующего узла. Проверить статус сетевых интерфейсов узла. Убедиться в работоспособности docker-контейнера соответствующего бэкенда (сервиса). Проверить журналы контейнера. Проверить, что соответствующий бэкенд слушает правильный сетевой порт. Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера. Проверить конфигурацию haproxy. |
HAProxyHigh5xxErrorRateBackend |
KeyStack - HAproxy |
haproxy_exporter |
(sum by (proxy, instance) (rate(haproxy_backend_http_responses_total{code="5xx"}[10m])) / sum by (proxy, instance) (rate(haproxy_backend_http_responses_total[10m]))) * 100 |
Warning, если для бэкенда в течение 10 мин количество ответов со статусом 5хх > 5 |
Haproxy |
Наличие ошибок со статусом 5хх в ответе фронтендов |
Высокая нагрузка, сбой haproxy |
Недоступность фронтенда |
Проверить сетевую доступность соответствующего узла. Проверить статус сетевых интерфейсов узла. Убедиться в работоспособности docker-контейнера соответствующего фронтенда (сервиса). Проверить журналы контейнера. Проверить, что соответствующий фронтенд слушает правильный сетевой порт. Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера. Проверить конфигурацию haproxy. |
HAProxyHigh5xxErrorRateFrontend |
KeyStack - HAproxy |
haproxy_exporter |
(sum by (proxy, instance) (rate(haproxy_frontend_http_responses_total{code="5xx"}[10m])) / sum by (proxy, instance) (rate(haproxy_frontend_http_responses_total[10m]))) * 100 |
Warning, если для фронтенда в течение 10 мин количество ответов со статусом 5хх > 5 |
Haproxy |
Время ответа от бэкенда keystone |
Повышенная нагрузка на keystone или медленная работа самого сервиса |
Возможно нарушение работы сервисов и сбой облака |
Провести диагностику нагрузки по памяти и центральному процессору на управляющих узлах. Проанализировать журналы keystone и его docker-контейнера. Проанализировать нагрузку по управляющей сети. Проанализировать журналы haproxy и его docker-контейнера. |
HAProxyKeystoneBackendSlowingDown |
KeyStack - HAproxy |
haproxy_exporter |
avg by (proxy, instance) (haproxy_backend_total_time_average_seconds{proxy=~"keystone_.*"} |
Warning, если время ответа keystone > 1 сек |
Haproxy |
Флаппинг статуса сервера |
Может означать ошибку в конфигурации бэкенда (сервиса) или его сетевую недоступность |
Влияет на работоспособность облака, доступность отдельных компонентов облака, на доступность API сервисов |
Убедиться в работоспособности и доступности соответствующего узла. Убедиться в работоспособности docker-контейнера соответствующего бэкенда (сервиса). Проверить журналы контейнера соответствующего бэкенда. Проверить конфигурацию соответствующего бэкенда. Убедиться в работоспособности контейнера haproxy. Проверить журналы контейнера haproxy. |
HAProxyBackendFlapping |
KeyStack - HAproxy |
haproxy_exporter |
haproxy_server_check_up_down_total[2m] |
Warning, если rate(haproxy_server_check_up_down_total[2m]) > 0 |
VictoriaMetrics¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
VMAgent |
Состояние vmagent |
VMAgent не успевает своевременно отправлять данные в удалённое хранилище метрик и удалил часть данных из постоянной очереди |
Частичная потеря данных мониторинга за какой-то период времени |
Проверить доступность и работоспособность удалённых хранилищ метрик, указанных в параметре '-remoteWrite.url' команды запуска VMAgent. Проанализировать производительность дисковой подсистемы передающей и принимающей сторон. Проанализировать скорость передачи данных по сети и утилизацию сетевых интерфейсов. |
VMPersistentQueueIsDroppingData |
Keystack -VMAgent |
victoriametrics |
sum(increase(vm_persistentqueue_bytes_dropped_total[5m])) |
Critical > 0 |
VMAgent |
Состояние vmagent |
VMAgent отбрасывает блоки данных, отклоненные удалённым хранилищем |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать журналы контейнеров *vmagent для диагностики причины отклонения данных удалённым хранилищем. |
VMRejectedRemoteWriteDataBlocksAreDropped |
Keystack -VMAgent |
victoriametrics |
sum(increase(vmagent_remotewrite_packets_dropped_total[5m])) |
Warning > 0 |
VMAgent |
Состояние vmagent |
VMAgent не смог собрать метрики с одного или нескольких экспортёров (targets) за последние 15 мин |
Отсутствие мониторинга и сбора метрик некоторых компонентов |
Проанализировать журналы контейнера *vmagent для диагностики недоступного экспортёра (target). Убедиться в корректности перечня таргетов, а также параметров соответствующего задания (job) в конфигурационном файле vmagent. Проверить доступность и работоспособность соответствующего экспортёра. |
VMTooManyScrapeErrors |
Keystack -VMAgent |
victoriametrics |
increase(vm_promscrape_scrapes_failed_total[5m]) |
Warning > 0 |
VMAgent |
Состояние vmagent |
В конфигурационном файле VMAgent одно или несколько заданий (job) не содержит перечня экспортёров (targets) для сбора метрик |
Отсутствие мониторинга и сбора метрик некоторых компонентов |
Проанализировать и проверить конфигурацию региона. Проанализировать и проверить inventory региона. Проанализировать кем и когда вносились последние изменения в конфигурационный файл VMAgent. |
VMScrapePoolHasNoTargets |
Keystack -VMAgent |
victoriametrics |
sum(vm_promscrape_scrape_pool_targets) |
Warning == 0 |
VMAgent |
Состояние vmagent |
VMAgent отвечает ошибками на запросы записи данных в удалённое хранилище |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать журналы контейнеров *vmagent. Проанализировать журналы контейнеров victoriametrics_*. Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты VictoriaMetrics, а также сетевую связность между ними. |
VMTooManyWriteErrors |
Keystack -VMAgent |
victoriametrics |
sum(increase(vm_ingestserver_request_errors_total[5m]))+ sum(increase(vmagent_http_request_errors_total[5m])) |
Warning > 0 |
VMAgent |
Состояние vmagent |
Высокая утилизация соединения между vmagent и удалённым хранилищем |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать производительность дисковой подсистемы передающей и принимающей сторон. Проанализировать скорость передачи данных по сети и утилизацию сетевых интерфейсов. Проанализировать утилизацию вычислительных ресурсов принимающей стороны. Проанализировать необходимость увеличения параметра '-remoteWrite.queues' команды запуска VMAgent. |
VMRemoteWriteConnectionIsSaturated |
Keystack -VMAgent |
victoriametrics |
rate(vmagent_remotewrite_send_duration_seconds_total[5m]) / vmagent_remotewrite_queues) |
Warning > 0.9 |
VMAgent |
Состояние vmagent |
Увеличенное время записи в постоянную очередь VMAgent может не успевать записывать данные из оперативной памяти на дисковую подсистему |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать нагрузку на vmagent. Проанализировать производительность дисковой подсистемы vmagent. |
VMPersistentQueueForWritesIsSaturated |
Keystack -VMAgent |
victoriametrics |
rate(vm_persistentqueue_write_duration_seconds_total[5m]) |
Warning > 0.9 |
VMAgent |
Состояние vmagent |
Увеличенное время чтения из постоянной очереди VMAgent может не успевать считывать данные с дисковой системы |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать нагрузку на vmagent. Проанализировать производительность дисковой подсистемы vmagent. |
VMPersistentQueueForReadsIsSaturated |
Keystack -VMAgent |
victoriametrics |
rate(vm_persistentqueue_read_duration_seconds_total[5m]) |
Warning > 0.9 |
VMAgent |
Состояние vmagent |
Неуспешное обновление конфигурации vmagent |
Отсутствие мониторинга и сбора метрик некоторых компонентов |
Проанализировать журналы контейнера *vmagent. |
VMConfigurationReloadFailure |
Keystack -VMAgent |
victoriametrics |
vm_promscrape_config_last_reload_successful vmagent_relabel_config_last_reload_successful |
Warning vm_promscrape_config_last_reload_successful !=1 or vmagent_relabel_config_last_reload_successful !=1 |
VMAgent |
Состояние vmagent |
Число уникальных временных рядов записанных в удалённое хранилище за предыдущий час приближается к установленному максимальному значению |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать количество временных рядов записываемых в удалённое хранилище. Проанализировать значение параметра '-remoteWrite.maxHourlySeries' команды запуска VMAgent для удалённого хранилища. |
VMSeriesLimitHourReached |
Keystack -VMAgent |
victoriametrics |
vmagent_hourly_series_limit_current_series / vmagent_hourly_series_limit_max_series) |
Warning > 0.9 |
VMAgent |
Состояние vmagent |
Число уникальных временных рядов записанных в удалённое хранилище за предыдущие сутки приближается к установленному максимальному значению |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать количество временных рядов записываемых в удалённое хранилище. Проанализировать значение параметра '-remoteWrite.maxDailySeries' команды запуска VMAgent для удалённого хранилища. |
VMSeriesLimitDayReached |
Keystack -VMAgent |
victoriametrics |
(vmagent_daily_series_limit_current_series / vmagent_daily_series_limit_max_series) |
Warning > 0.9 |
VMAgent |
Состояние vmagent |
Процесс агрегации сэмплов (samples) в режиме потоковой передачи не завершился в течение заданного интервала агрегации |
Неверные результаты агрегации в целевом удалённом хранилище метрик |
Проанализировать журналы контейнера *vmagent. Проанализировать установленные интервалы агрегации в конфигурационном файле потоковой агрегации. Возможные решения: увеличить интервал агрегации, агрегировать меньшее количество серий, уменьшить скорость приема сэмплов (samples) для потоковой агрегации. |
VMStreamAggrFlushTimeout |
Keystack -VMAgent |
victoriametrics |
increase(vm_streamaggr_flush_timeouts_total[5m]) |
Warning > 0 |
VMAgent |
Состояние vmagent |
Процесс дедупликации в режиме потоковой передачи не завершился в течение заданного интервала агрегации |
Неверные результаты агрегации в целевом удалённом хранилище метрик |
Проанализировать журналы контейнера *vmagent. Проанализировать установленные интервалы дедупликации в конфигурационном файле потоковой агрегации. Обратиться к разделу Deduplication документации VictoriaMetrics. Возможные решения: увеличить интервал дедупликации, дедуплицировать меньшее количество серий, уменьшить скорость приема сэмплов (samples) для потоковой агрегации. |
VMStreamAggrDedupFlushTimeout |
Keystack -VMAgent |
victoriametrics |
increase(vm_streamaggr_dedup_flush_timeouts_total[5m]) |
Warning > 0 |
VMAlert |
Состояние vmalert |
Неуспешное обновление конфигурации vmalert |
Отсутствие результата обработки правил и отправки уведомлений об алертах |
Проанализировать журналы контейнера *vmalert. |
VMConfigurationReloadFailure |
Keystack - VMAlert |
victoriametrics |
vmalert_config_last_reload_successful |
Warning != 1 |
VMAlert |
Состояние vmalert |
Не выполняется обработка правила оповещения (alert rule) |
Отсутствие результата обработки правил и отправки уведомлений об алертах |
Проанализировать журналы контейнера *vmalert. |
VMAlertingRulesError |
Keystack - VMAlert |
victoriametrics |
sum(increase(vmalert_alerting_rules_errors_total[5m])) |
Warning > 0 |
VMAlert |
Состояние vmalert |
Не выполняется обработка правила записи (record rule) |
Отсутствие результата обработки правил и расчёта метрик |
Проанализировать журналы контейнера *vmalert. |
VMRecordingRulesError |
Keystack - VMAlert |
victoriametrics |
sum(increase(vmalert_recording_rules_errors_total[5m])) |
Warning > 0 |
VMAlert |
Состояние vmalert |
Отсутствуют результаты выполнения правил записи (recording rules) |
Отсутствие результата обработки правил и расчёта метрик Отсутствие мониторинга и сбора метрик некоторых компонентов |
Проанализировать запрос в правиле записи (recording rule). Проанализировать данные, используемые в запросе. |
VMRecordingRulesNoData |
Keystack - VMAlert |
victoriametrics |
sum(vmalert_recording_rules_last_evaluation_samples) |
info < 1 |
VMAlert |
Состояние vmalert |
Обработка группы правил занимает больше времени, чем установленный интервал |
Отсутствие результата обработки правил и отправки уведомлений об алертах |
Проанализировать время обработки группы правил. Обратиться к разделу Groups документации vmalert. Если выполнение правил занимает больше ожидаемого времени, обратиться к разделу Slow queries документации VictoriaMetrics. |
VMTooManyMissedIterations |
Keystack - VMAlert |
victoriametrics |
increase(vmalert_iteration_missed_total[5m]) |
Warning > 0 |
VMAlert |
Состояние vmalert |
Неуспешная отправка запросов на запись данных в удалённое хранилище |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать журналы контейнеров *vmalert. Проверить доступность и работоспособность удалённого хранилища метрик. Убедиться в корректности параметров удалённого хранилища метрик в параметрах запуска VMAlert. |
VMRemoteWriteErrors |
Keystack - VMAlert |
victoriametrics |
increase(vmalert_remotewrite_errors_total[5m]) |
Warning > 0 |
VMAlert |
Состояние vmalert |
VMAlert не может отправить данные на запись в удалённое хранилище и отбрасывает их Перегружен буфер клиента удалённой записи |
Отсутствие результата обработки правил и отправки уведомлений об алертах Отсутствие статусов алертов |
Проанализировать журналы контейнеров *vmalert. Проверить доступность и работоспособность удалённого хранилища метрик. Убедиться в корректности параметров удалённого хранилища метрик в параметрах запуска VMAlert. Проанализировать утилизацию вычислительных ресурсов удалённого хранилища. |
VMRemoteWriteDroppingData |
Keystack - VMAlert |
victoriametrics |
increase(vmalert_remotewrite_dropped_rows_total[5m]) |
Warning > 0 |
VMAlert |
Состояние vmalert |
VMAlert не может отправлять уведомления в Alertmanager |
Отсутствие отправки уведомлений об алертах |
Проанализировать журналы контейнеров *vmalert. Проанализировать параметры команды запуска VMAlert. Проанализировать доступность и работоспособность Alertmanager. Проанализировать журналы контейнеров *alertmanager. |
VMAlertmanagerErrors |
Keystack - VMAlert |
victoriametrics |
increase(vmalert_alerts_send_errors_total[5m]) |
Warning > 0 |
VMCluster |
Состояние кластера VictoriaMetrics |
Зафиксированы ошибки в запросах к API |
Некорректная работа с данными мониторинга |
Проанализировать журналы контейнеров victoriametrics*. Проанализировать конфигурацию компонента, получающего запросы с ошибками. Проанализировать конфигурацию компонента, отправляющего запросы с ошибками. Проанализировать содержимое запросов. |
VMRequestErrorsToAPI |
KeyStack - VMCluster |
victoriametrics |
increase(vm_http_request_errors_total[5m]) |
Warning > 0 |
VMCluster |
Состояние кластера VictoriaMetrics |
Зафиксированы ошибки во взаимодействии между компонентами кластера VictoriaMetrics |
Отсутствие мониторинга и сбора метрик некоторых компонентов Отсутствие предоставления данных мониторинга |
Проанализировать журналы контейнеров victoriametrics*. Проанализировать конфигурацию контейнеров victoriametrics*. Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты VictoriaMetrics, а также сетевую связность между ними. |
VMRPCErrors |
KeyStack - VMCluster |
victoriametrics |
sum(increase(vm_rpc_connection_errors_total[5m])) + sum(increase(vm_rpc_dial_errors_total[5m])) + sum(increase(vm_rpc_handshake_errors_total[5m])) |
Warning > 0 |
VMCluster |
Состояние кластера VictoriaMetrics |
VictoriaMetrics постоянно создает новые временные ряды Частота изменений (Churn Rate) составляет более 10% |
Снижение производительности базы данных, наличие событий OOM (Out of memory), медленные запросы |
Проанализировать метки (labels) с наиболее часто изменяемыми данными. Проанализировать возможность удаления или агрегации таких меток. |
VMTooHighChurnRate |
KeyStack - VMCluster |
victoriametrics |
sum(rate(vm_new_timeseries_created_total[5m])) by(job) / sum(rate(vm_rows_inserted_total[5m])) by(job)) |
Warning > 0.1 |
VMCluster |
Состояние кластера VictoriaMetrics |
Количество созданных новых временных рядов за последние 24 часа в три раза превышает количество активных временных рядов |
Снижение производительности базы данных, наличие событий OOM (Out of memory), медленные запросы |
Проанализировать метки (labels) с наиболее часто изменяемыми данными. Проанализировать возможность удаления или агрегации таких меток. |
VMTooHighChurnRate24h |
KeyStack - VMCluster |
victoriametrics |
sum(increase(vm_new_timeseries_created_total[24h])) |
Warning > (sum(vm_cache_entries{type="storage/hour_metric_ids"}) by(job) * 3) |
VMCluster |
Состояние кластера VictoriaMetrics |
Высокий процент медленных операций insert относительного общего количества таких операций |
Возможно нарушение корректного функционирования системы мониторинга |
Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты VictoriaMetrics. Проанализировать утилизацию оперативной памяти компонента vminsert. Проанализировать текущую нагрузку на систему мониторинга. Обратиться к GitHub issue в репозитории VictoriaMetrics. |
VMTooHighSlowInsertsRate |
KeyStack - VMCluster |
victoriametrics |
(sum(rate(vm_slow_row_inserts_total[5m])) by(job) / sum(rate(vm_rows_inserted_total[5m])) by(job)) |
Warning > 0.05 |
VMCluster |
Состояние кластера VictoriaMetrics |
Высокая утилизация соединения между vminsert и vmstorage |
Возможно нарушение корректного функционирования системы мониторинга |
Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты vminsert и vmstorage. Проанализировать нагрузку на компоненты vminsert и vmstorage. Проанализировать необходимость добавления в кластер узлов vminsert или vmstorage. |
VMVminsertVmstorageConnectionIsSaturated |
KeyStack - VMCluster |
victoriametrics |
rate(vm_rpc_send_duration_seconds_total[5m]) |
Warning > 0.9 |
VMCluster |
Состояние кластера VictoriaMetrics |
Нехватка свободного места на файловой системе |
Нарушение процессов слияния и ухудшение общей производительности |
Проанализировать возможность ограничения объёма принимаемых данных, уменьшения периода хранения данных или расширения дискового пространства. |
VMDiskRunsOutOfSpace |
KeyStack - VMCluster |
victoriametrics |
sum(vm_data_size_bytes) / (sum(vm_free_disk_space_bytes) + sum(vm_data_size_bytes) ) |
Critical > 0.8 Warning > 0.75 |
VMCluster |
Состояние кластера VictoriaMetrics |
В соответствии с текущим объёмом получаемых данных свободное место на диске закончится в течение трёх дней |
Возможно нарушение корректного функционирования системы мониторинга |
Проанализировать возможность ограничения объёма принимаемых данных, уменьшения периода хранения данных или расширения дискового пространства. |
VMDiskRunsOutOfSpaceIn3Days |
KeyStack - VMCluster |
victoriametrics |
sum(vm_free_disk_space_bytes) / ((rate(vm_rows_added_to_storage_total[1d]) - sum(rate(vm_deduplicated_samples_total[1d])) ) * (sum(vm_data_size_bytes{type!~"indexdb.*"}) / sum(vm_rows{type!~"indexdb.*"}) ) + rate(vm_new_timeseries_created_total[1d]) * scalar(sum(vm_data_size_bytes{type="indexdb/file"}) / sum(vm_rows{type="indexdb/file"}))) < 3 * 24 * 3600 |
Critical > 0 |
VMCluster |
Состояние кластера VictoriaMetrics |
В соответствии с текущим объёмом получаемых данных система мониторинга в течение трёх дней перейдёт в режим только для чтения |
Частичная потеря данных мониторинга за какой-то период времени |
Проанализировать возможность ограничения объёма принимаемых данных, уменьшения периода хранения данных или расширения дискового пространства. |
VMNodeBecomesReadonlyIn3Days |
KeyStack - VMCluster |
victoriametrics |
sum(vm_free_disk_space_bytes - vm_free_disk_space_limit_bytes) / ((rate(vm_rows_added_to_storage_total[1d]) - sum(rate(vm_deduplicated_samples_total[1d])) ) * (sum(vm_data_size_bytes{type!~"indexdb.*"}) / sum(vm_rows{type!~"indexdb.*"}) ) + rate(vm_new_timeseries_created_total[1d]) * scalar(sum(vm_data_size_bytes{type="indexdb/file"}) / sum(vm_rows{type="indexdb/file"}))) < 3 * 24 * 3600 |
Warning > 0 |
VMCluster |
Состояние кластера VictoriaMetrics |
Система мониторинга перешла в режим только для чтения |
Частичная потеря данных мониторинга за какой-то период времени |
С помощью команды 'du -hd1 /*' проанализировать размер каталогов/файлов. Проанализировать возможность ограничения объёма принимаемых данных, уменьшения периода хранения данных. При необходимости освободить место либо расширить файловую систему. |
VMStorageIsReadonly |
KeyStack - VMCluster |
victoriametrics |
vm_storage_is_read_only |
Warning == 1 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Компонент VictoriaMetrics часто перезапускается |
Отсутствие мониторинга и сбора метрик некоторых компонентов Отсутствие предоставления данных мониторинга |
Проанализировать журналы контейнеров victoriametrics*. Проанализировать конфигурацию компонентов. |
VMTooManyRestarts |
KeyStack - VMHealth |
victoriametrics |
changes(process_start_time_seconds{job="victoriametrics"}[15m]) |
Critical > 2 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Один или несколько компонентов VictoriaMetrics выключен или неисправен на всех узлах |
Отсутствие мониторинга и сбора метрик некоторых компонентов Отсутствие предоставления данных мониторинга |
Проанализировать журналы контейнеров victoriametrics*. Проанализировать конфигурацию компонентов. |
VMServiceDown |
KeyStack - VMHealth |
victoriametrics |
(label_replace(up{job="victoriametrics"} |
Critical sum by (service_port) == 0 Warning == 0 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Количество открытых файлов приближается к установленному ограничению |
Может означать повышенную нагрузку на компонент Может означать некорректную конфигурацию |
Проанализировать состояние компонентов VictoriaMetrics. С помощью инструментов 'lsof', 'ps' и /proc/PID/fd продиагностировать какими файловыми дескрипторами пользуются процессы VictoriaMetrics. При необходимости произвести перезагрузку затронутого компонента VictoriaMetrics или узла. Проанализировать журналы узла и ядра. Проанализировать необходимость увеличения ограничения. |
VMProcessNearFDLimits |
KeyStack - VMHealth |
victoriametrics |
process_open_fds{job="victoriametrics"} / process_max_fds{job="victoriametrics"} * 100 |
Critical > 90 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Высокое потребление памяти компонентом VictoriaMetrics |
Возможно нарушение корректного функционирования системы мониторинга, наличие событий OOM (Out of memory), снижение производительности |
Проанализировать состояние компонентов VictoriaMetrics. Проверить работу балансировщика (haproxy). При необходимости произвести перезагрузку затронутого компонента VictoriaMetrics или узла. |
VMTooHighMemoryUsage |
KeyStack - VMHealth |
victoriametrics |
min_over_time(process_resident_memory_anon_bytes{job="victoriametrics"}[10m]) / vm_available_memory_bytes) * 100 |
Critical > 80 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Высокое потребление ресурсов ЦП компонентом VictoriaMetrics |
Возможно нарушение корректного функционирования системы мониторинга, снижение производительности |
Проанализировать состояние компонентов VictoriaMetrics. Проверить работу балансировщика (haproxy). Проанализировать возможность ограничения объёма обрабатываемых данных. Проанализировать необходимость добавления в кластер дополнительных экземпляров затронутого компонента. |
VMTooHighCPUUsage |
KeyStack - VMHealth |
victoriametrics |
rate(process_cpu_seconds_total{job="victoriametrics"}[5m]) / process_cpu_cores_available{job="victoriametrics"}) |
Critical > 0.9 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Среда выполнения Go не может запланировать выполнение goroutines в приемлемое время |
Возможно нарушение корректного функционирования системы мониторинга, снижение производительности |
Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты VictoriaMetrics. Проверить достаточность выделения ресурсов ЦП для компонентов VictoriaMetrics и отсутствие динамического изменения частоты ЦП (throttling) на узле. |
VMTooHighGoroutineSchedulingLatency |
KeyStack - VMHealth |
victoriametrics |
(histogram_quantile(0.99, sum(rate(go_sched_latencies_seconds_bucket{job="victoriametrics"}[5m])) by (le, job, instance)) |
Critical > 0.1 |
VMHealth |
Состояние компонентов VictoriaMetrics |
В журналах компонента VictoriaMetrics фиксируется большое количество записей с уровнем error |
Возможно нарушение корректного функционирования системы мониторинга |
Проанализировать журналы контейнеров victoriametrics*. |
VMTooManyLogs |
KeyStack - VMHealth |
victoriametrics |
sum(increase(vm_log_messages_total{level="error"}[5m]) |
Warning > 0 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Количество одновременных операций insert приближается к установленному ограничению, зависящему от количества ЦП |
Возможно нарушение корректного функционирования системы мониторинга |
Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты VictoriaMetrics. Для компонентов vmagent и vminsert проанализировать количество клиентов с запросами на запись. При нормальной утилизации ЦП и сетевого соединения компонентами vmagent и vminsert рассмотреть необходимость настройки параметра '-maxConcurrentInserts' команды запуска соответствующего компонента. |
VMConcurrentInsertsHitTheLimit |
KeyStack - VMHealth |
victoriametrics |
avg_over_time(vm_concurrent_insert_current[5m]) |
Warning >= vm_concurrent_insert_capacity |
VMHealth |
Состояние компонентов VictoriaMetrics |
IndexDB отклонил регистрацию поступивших временных рядов |
Отсутствие мониторинга и сбора метрик некоторых компонентов |
Проанализировать причину отклонения данных. В качестве примера, 'reason=too_long_item' означает, что размер временного ряда превышает ограничение по умолчанию в 64 КБ. В таком случае необходимо проанализировать возможность уменьшения количества меток (labels) или значений меток, либо увеличить ограничение с помощью параметров '-maxLabelsPerTimeseries' или '-maxLabelValueLen' команды запуска vmstorage. |
VMIndexDBRecordsDrop |
KeyStack - VMHealth |
victoriametrics |
increase(vm_indexdb_items_dropped_total[5m]) |
Critical > 0 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Некоторые метрики были отклонены во время процесса записи |
Отсутствие мониторинга и сбора метрик некоторых компонентов |
Проанализировать причину отклонения данных. |
VMRowsRejectedOnIngestion |
KeyStack - VMHealth |
victoriametrics |
rate(vm_rows_ignored_total[5m]) |
Warning > 0 |
VMHealth |
Состояние компонентов VictoriaMetrics |
Запросы на чтение завершаются сбоем из-за тайм-аута Достигнут предел параллелизма, установленный параметром '-search.maxConcurrentRequests', и остальные запросы были помещены в очередь на время, установленное параметром '-search.maxQueueDuration' Но даже после ожидания в очереди эти запросы не были обработаны |
Возможно нарушение корректного функционирования системы мониторинга, снижение производительности |
Проанализировать утилизацию вычислительных ресурсов, на которых размещаются компоненты VictoriaMetrics. Проанализировать время ответа компонента vmstorage. Проанализировать возможность снижения нагрузки, увеличения количество реплик vmstorage, увеличения значения параметров '-search.maxConcurrentRequests', '-search.maxQueueDuration'. Дополнительно обратиться к разделу Slow queries документации VictoriaMetrics. |
VMTooHighQueryLoad |
KeyStack - VMHealth |
victoriametrics |
increase(vm_concurrent_select_limit_timeout_total[5m]) |
Warning > 0 |
Middleware¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
RabbitMQ |
Очередь Unacknowledged Messages |
Количество сообщений в очередях RabbitMQ, которые были доставлены потребителям, но ещё не подтверждены этими потребителями |
Может влиять на производительность, надёжность и потребление ресурсов |
Проверить в Grafana метрики rabbitmq_queue_messages_unacknowledged, rabbitmq_queue_messages_ready and rabbitmq_queue_messages. Определить очереди, которые подверглись увеличению количества сообщений. Посмотреть журналы RabbitMQ и потребителей. |
RabbitMQUnacknowledgedMessagesIncrease |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages_unacked |
Warning, если за последние 15 мин размер очереди увеличился на > 300 сообщений |
RabbitMQ |
Очередь Unroutable Messages |
Количество сообщений, которые RabbitMQ пытался доставить в очередь, но не смог найти подходящую очередь и впоследствии были возвращены отправителю или удалены из очереди |
Может увеличить нагрузку на сеть, потребление ресурсов и потерю сообщений Потенциально влияет на весь регион |
Проверить привязку очередей к обменникам (exchanges). Удостовериться, что отправители (publishers) имеют правильные маршруты. Проверить маршруты от отправителя к получателю. Проверить конфигурацию RabbitMQ. |
RabbitmqUnroutableMessages |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
increase(rabbitmq_channel_messages_unroutable_returned_total[5m]) + increase(rabbitmq_channel_messages_unroutable_dropped_total[5m]) |
Warning, если в течение 10 мин среднее значение unroutable_returned сообщений > 0 или, если в течение 10 мин среднее значение unroutable_dropped сообщений > 5 |
RabbitMQ |
Очередь Unroutable Messages |
Увеличилось количество сообщений, которые не попадают под правила маршрутизации и впоследствии были возвращены отправителю |
Может увеличить нагрузку на сеть, потребление ресурсов и потерю сообщений Потенциально влияет на весь регион |
Проверить привязку очередей к обменникам (exchanges). Удостовериться, что отправители (publishers) имеют правильные маршруты. Проверить маршруты от отправителя к получателю. Проверить конфигурацию RabbitMQ. |
RabbitMQUnroutableReturnedMessagesIncrease |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
increase(rabbitmq_channel_messages_unroutable_returned_total[5m]) |
Warning, если в течение 10 мин в очереди прибавилось > 5 unroutable_returned сообщений |
RabbitMQ |
Очередь Unroutable Messages |
Увеличилось количество сообщений, которые не попадают под правила маршрутизации и впоследствии были удалены из очереди |
Может увеличить нагрузку на сеть, потребление ресурсов и потерю сообщений Потенциально влияет на весь регион |
Проверить привязку очередей к обменникам (exchanges). Удостовериться, что отправители (publishers) имеют правильные маршруты. Проверить маршруты от отправителя к получателю. Проверить конфигурацию RabbitMQ. |
RabbitMQUnroutableDroppedMessagesIncrease |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
increase(rabbitmq_channel_messages_unroutable_dropped_total[5m]) |
Warning, если в течение 10 мин в очереди прибавилось > 50 unroutable_dropped сообщений |
RabbitMQ |
Размер очередей |
Значительно увеличилось общее количество сообщений, находящихся в очереди, включая готовые и неподтверждённые сообщения |
Рост количества сообщений влияет на быстродействие всего кластера, потребление ресурсов и отзывчивость кластера |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitMQQueueMessagesIncrease |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages |
Warning, если за последние 10 мин размер очереди увеличился на > 300 сообщений |
RabbitMQ |
Размер очередей |
Общее количество сообщений, находящихся в очереди, включая готовые и неподтверждённые сообщения |
Рост количества сообщений влияет на быстродействие всего кластера, потребление ресурсов и отзывчивость кластера |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitMQTooManyMessages |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages |
Warning, если в течение 5 мин размер очереди > 40 сообщений |
RabbitMQ |
Статус узла |
Может означать: сетевую недоступность узла неисправность сервиса |
Влияет на все службы кластера |
На управляющем узле убедиться в работоспособности контейнеров rabbitmq*. Проверить журналы контейнеров. Проанализировать журналы rabbitmq. |
RabbitmqDown |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
up{job="rabbitmq"} |
Warning, если статус == 0 |
RabbitMQ |
Превышение ограничения памяти |
Потребление памяти сервисом RabbitMQ превысило установленное ограничение |
Может влиять на быстродействие и доступность сервиса RabbitMQ |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проанализировать конфигурацию RabbitMQ. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitMQMemoryAlarm |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_alarms_memory_used_watermark |
Critical, если статус == 1 |
RabbitMQ |
Количество доступной памяти для процесса RabbitMQ |
Процесс RabbitMQ стал потреблять больше памяти, чем ему выделено |
Может влиять на работоспособность и доступность всех сервисов узла |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitmqMemoryHigh |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_process_resident_memory_bytes / rabbitmq_resident_memory_limit_bytes |
Warning, если RabbitMQ использует > 90% памяти на узле |
RabbitMQ |
Превышение ограничения свободного места на диске |
Свободное дисковое пространство выделенное для RabbitMQ ниже установленного ограничения |
Может влиять на быстродействие и доступность сервиса RabbitMQ |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проанализировать конфигурацию RabbitMQ. Проанализировать утилизацию дисковых ресурсов на узле. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitMQDiskAlarm |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_alarms_free_disk_space_watermark |
Critical, если статус == 1 |
RabbitMQ |
Количество используемых файловых дескрипторов |
Большое количество открытых на чтение-запись файлов |
Может означать повышенную нагрузку на сервис Может означать некорректную конфигурацию RabbitMQ |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. При необходимости произвести оптимизацию потребителей. С помощью инструментов 'lsof', 'ps' и /proc/PID/fd продиагностировать, какими файловыми дескрипторами пользуется процесс. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. Проанализировать журналы узла и ядра. |
RabbitmqFileDescriptorsUsage |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_process_open_fds / rabbitmq_process_max_fds |
Warning, если RabbitMQ использует > 90% доступных файловых дескрипторов на узле |
RabbitMQ |
Наличие очередей с сообщениями, но без подписчиков |
Может означать ошибку в конфигурации |
Может означать повышенную нагрузку на кластер Может означать некорректную конфигурацию RabbitMQ |
Проверить корректность конфигурации RabbitMQ. |
RabbitmqNoQueueConsumer |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages > 0 and rabbitmq_queue_consumers == 0 |
Warning, если условие выполняется |
RabbitMQ |
Количество соединений |
Может означать повышенную нагрузку на кластер Может означать ошибку в конфигурации |
Может означать повышенную нагрузку на кластер Может означать некорректную конфигурацию RabbitMQ |
Провести аудит административных действий и нагрузки на регион. Проверить корректность конфигурации RabbitMQ. |
RabbitmqTooManyConnections |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_connections |
Warning, если количество подключений > 1000 |
RabbitMQ |
Статус сервиса |
В регионе не работают все экземпляры RabbitMQ |
Влияет на работу всего региона |
Убедиться в работоспособности контейнеров rabbitmq. Проверить журналы контейнера. |
RabbitmqServiceOutage |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
up{job="rabbitmq_internal"} |
Critical, если sum = 0 |
RabbitMQ |
Состояние сервиса |
RabbitMQ имеет много неподтверждённых сообщений |
Замедление работы региона или его неработоспособность |
Проанализировать состояние и журналы сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. Найти и проанализировать очереди, в которых находятся такие сообщения, и проанализировать состояние связанных служб. |
RabbitmqTooManyUnackMessages |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages_unacked |
Warning, если sum by (queue,instance) > 1000 |
RabbitMQ |
Состояние сервиса |
В RabbitMQ возросло количество сообщений без подтверждения |
Замедление работы региона или его неработоспособность |
Проанализировать состояние и журналы сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. Найти и проанализировать очереди, в которых находятся такие сообщения, и проанализировать состояние связанных служб. |
RabbitMQUnacknowledgedMessagesIncrease |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages_unacked |
Warning, если за последние 15 мин размер очереди увеличился на > 300 сообщений |
RabbitMQ |
Состояние сервиса |
Размер очереди RabbitMQ быстро увеличивается |
Рост количества сообщений влияет на быстродействие всего кластера, потребление ресурсов и отзывчивость кластера |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitMQQueueGrowing |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rate(rabbitmq_queue_messages[5m]) > 100 and rabbitmq_queue_messages > 1000 |
Warning, если условие выполняется |
RabbitMQ |
Состояние сервиса |
Высокая скорость публикации в очереди RabbitMQ |
Рост количества сообщений влияет на быстродействие всего кластера, потребление ресурсов и отзывчивость кластера |
Проанализировать состояние сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. При необходимости произвести оптимизацию потребителей. При необходимости произвести перезагрузку какого-либо сервиса RabbitMQ или узла кластера. |
RabbitMQHighPublishRate |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rate(rabbitmq_queue_messages_published_total[2m]) |
Info, если sum by (instance) > 10000 |
RabbitMQ |
Доступность сервиса RabbitMQ |
В лог-файлах зафиксированы записи о недоступности RabbitMQ |
Влияет на работу всего региона |
Убедиться в работоспособности контейнеров rabbitmq. Проверить журналы контейнера. Проанализировать журналы rabbitmq. |
RabbitMQserverUnreachable |
KeyStack - RabbitMQ |
fluentd exporter |
fluentd_input_amqp_errors_records_total |
Warning, если в логах фиксируются новые ошибки подключения |
RabbitMQ |
Состояние соединения (distribution link) |
Не активное соединение (distribution link) между узлами RabbitMQ |
Влияет на работу всего региона |
Убедиться в работоспособности контейнеров rabbitmq. Проверить журналы контейнера. Проверить сетевую связность между управляющими узлами и корректность маршрутов. Проверить журналы RabbitMQ. |
RabbitmqNodeNotDistributed |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
erlang_vm_dist_node_state |
Critical, если < 3 |
RabbitMQ |
Кол-во соединений (distribution link) |
Недостаточное количество установленных связей между узлами кластера RabbitMQ Ожидаемое кол-во связей должно быть n*(n-1), где 'n' - кол-во узлов RabbitMQ в кластере |
Влияет на работу всего региона |
Убедиться в работоспособности контейнеров rabbitmq. Проверить журналы контейнера. Проверить сетевую связность между управляющими узлами и корректность маршрутов. Проверить журналы RabbitMQ. |
InsufficientEstablishedErlangDistributionLinks |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
erlang_vm_dist_node_state |
Critical, если count(erlang_vm_dist_node_state==3) < n*(n-1) |
RabbitMQ |
Наличие короткоживущих соединений |
Значительное кол-во соединений имеет короткое время жизни |
Может означать повышенную нагрузку на кластер Может означать некорректную конфигурацию клиентов или сервера RabbitMQ |
Провести аудит административных действий и нагрузки на регион. Проверить корректность конфигурации серверов RabbitMQ. Проверить корректность конфигурации клиентов RabbitMQ. |
HighConnectionChurn |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_connections_closed_total rabbitmq_connections_opened_total rabbitmq_connections |
Warning, если (rabbitmq_connections_closed_total + rabbitmq_connections_opened_total) / rabbitmq_connections > 10% |
RabbitMQ |
Размер очередей |
RabbitMQ имеет много сообщений готовых к отправке потребителям |
Замедление работы региона или его неработоспособность |
Проанализировать состояние и журналы сервиса RabbitMQ. Подключиться к web консоли и проанализировать отображаемые данные. Проверить работу балансировщика (haproxy), выделение ресурсов, конфигурацию очередей. Найти и проанализировать очереди, в которых находятся такие сообщения, и проанализировать состояние связанных служб. |
RabbitmqTooManyReadyMessages |
KeyStack - RabbitMQ |
rabbitmq internal exporter |
rabbitmq_queue_messages_ready |
Warning, если > 1000 |
MariaDB |
Состояние экземпляра |
Экземпляр MariaDB на узле ещё не готов для использования |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBDown |
Keystack - MariaDB |
mariadb exporter |
mysql_up |
Warning, если = 0 |
MariaDB |
Состояние экземпляра |
Недоступны все экземпляры MariaDB |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBOutage |
Keystack - MariaDB |
mariadb exporter |
mysql_up |
Critical, если sum = 1 |
MariaDB |
Состояние экземпляра |
Экземпляр MariaDB не синхронизирован с кластером |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBInstanceNotSynced |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_wsrep_local_state |
Warning, если статус != 4 |
MariaDB |
Состояние экземпляра |
Экземпляр MariaDB на узле ещё не готов для использования |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBInstanceNotReady |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_wsrep_ready |
Warning, если статус != 1 Critical, если sum = 0 |
MariaDB |
Состояние экземпляра |
Во входящей очереди на экземпляре MariaDB длительное время остаются сообщения, что может мешать синхронизации с кластером |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBInstanceReceiveQueueHigh |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_wsrep_local_recv_queue |
Warning, если размер очереди > 0 в течение 10 мин |
MariaDB |
Состояние экземпляра |
Длительное время записи на диск журналов транзакций MariaDB |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. Проанализировать производительность дисковой подсистемы. |
MariadbInnodbLogWaits |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_innodb_log_waits |
Warning, если запросов > 10 в секунду на интервале 15 мин |
MariaDB |
Состояние экземпляра |
Длительное время ожидания блокировки таблиц БД MariaDB |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. Проанализировать производительность дисковой подсистемы. |
MariadbTableLockWaitHigh |
Keystack - MariaDB |
mariadb exporter |
100 * mysql_global_status_table_locks_waited / (mysql_global_status_table_locks_waited + mysql_global_status_table_locks_immediate) |
Warning, если > 30 |
MariaDB |
Состояние экземпляра |
Экземпляр MariaDB на узле ещё не подключён к кластеру |
Влияет на все службы узла |
На управляющем узле убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBInstanceWsrepNotConnected |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_wsrep_connected |
Warning, если статус != 1 Critical, если sum = 0 |
MariaDB |
Состояние кластера |
Нарушен кворум MariaDB |
Влияет на все службы узла |
На всех управляющих узлах убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBClusterNotPrimary |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_wsrep_cluster_status |
Warning, если статус кластера != 1 Critical, если sum = 0 |
MariaDB |
Состояние кластера |
Количество узлов кластера MariaDB меньше трёх Нарушен кворум MariaDB |
Влияет на все службы узла |
На всех управляющих узлах убедиться в работоспособности контейнеров mariadb*. Проверить журналы контейнеров. Проанализировать журналы mariadb. |
MariaDBClusterSizeChange |
Keystack - MariaDB |
mariadb exporter |
mysql_global_status_wsrep_cluster_size |
Warning, если статус < 3 |
Consul |
Статус службы Consul на узле |
Экземпляр Consul на узле выключен или сломался |
Недоступна статистика о работе сервисов облака Недоступен сервис отказоустойчивости для узла |
На управляющем узле убедиться в работоспособности контейнеров consul*. Проверить журналы контейнеров. Проанализировать журналы consul. |
ConsulDown |
Keystack - Consul |
consul_exporter |
consul_up |
Warning, если = 0 |
Consul |
Статус службы Consul в облаке |
Недоступны все экземпляры Consul |
Влияет на работу сервисов, обеспечивающих отказоустойчивость |
На управляющем узле убедиться в работоспособности контейнеров consul*. Проверить журналы контейнеров. Проанализировать журналы consul. |
ConsulOutage |
Keystack - Consul |
consul_exporter |
consul_up |
Critical, если sum = 0 |
Consul |
Статус экспортёра Consul |
Экспортёр Consul недоступен или выключен |
За период недоступности нет данных о Consul |
На управляющем узле убедиться в работоспособности контейнера consul_exporter. Проверить и проанализировать журналы контейнера. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulExporterDown |
Keystack - Consul |
consul_exporter |
up{job="consul_exporter"} |
Warning, если = 0 |
Consul |
Статус экспортёра Consul |
Экспортёр Consul недоступен или выключен на всех узлах |
За период недоступности нет данных о Consul |
На управляющем узле убедиться в работоспособности контейнера consul_exporter. Проверить и проанализировать журналы контейнера. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulExporterOutage |
Keystack - Consul |
consul_exporter |
up{job="consul_exporter"} |
Critical, если sum = 0 |
Consul |
Не пройдена проверка health check сервиса Consul на узле |
Работа служб отказоустойчивости не находится в целевом состоянии |
Работа служб отказоустойчивости не находится в целевом состоянии Отказоустойчивость сервисов недоступна |
На управляющем узле убедиться в работоспособности контейнеров consul*. Проверить журналы контейнеров. Проанализировать журналы consul. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulHealthNodeStatus |
Keystack - Consul |
consul_exporter |
consul_catalog_service_node_healthy |
Critical, если = 0 |
Consul |
Состояние подчиненных сущностей Consul |
Необходимое количество сущностей в кластере не достигнуто |
Потенциальная нестабильность в работе отказоустойчивости |
На управляющем узле убедиться в работоспособности контейнеров consul*. Проверить журналы контейнеров. Проанализировать журналы consul. |
ConsulRaftPeers |
Keystack - Consul |
consul_exporter |
consul_raft_peers |
Critical, если < 3 |
Consul |
Состояние агентов Consul |
Не целевое состояние сервиса Consul |
Потенциальная нестабильность в работе отказоустойчивости |
На управляющем узле убедиться в работоспособности контейнеров consul*. Проверить журналы контейнеров. Проанализировать журналы consul. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulAgentUnhealthy |
Keystack - Consul |
consul_exporter |
consul_health_node_status |
Warning, если == 1 |
Consul |
Состояние сервиса consul |
Сервис Consul на узле в критическом состоянии |
Работа служб отказоустойчивости на узле недоступна |
Зайти на узел, проверить состояние и журналы контейнеров consul*. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulHealthServiceStatus |
Keystack - Consul |
consul_exporter |
consul_health_service_status |
Warning, если == 1 |
Consul |
Состояние участника LAN кластера |
Не целевое состояние узла LAN кластера Consul |
Потенциальная нестабильность в работе отказоустойчивости |
Зайти на узел, проверить состояние и журналы контейнеров consul*. Проанализировать журналы consul. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulLanMemberStatus |
Keystack - Consul |
consul_exporter |
consul_serf_lan_member_status |
Warning, если != 1 |
Consul |
Состояние участника WAN кластера |
Не целевое состояние узла WAN кластера Consul |
Потенциальная нестабильность в работе отказоустойчивости |
Зайти на узел, проверить состояние и журналы контейнеров consul*. Проанализировать журналы consul. Проверить сетевую связность между управляющими узлами и корректность маршрутов. |
ConsulWanMemberStatus |
Keystack - Consul |
consul_exporter |
consul_serf_wan_member_status |
Warning, если != 1 |
Виртуальные машины¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
VM |
Соответствие MTU для ВМ и MTU на узле |
Размер сообщения пересылки по сети для ВМ не совпадает с установленным размером сообщения на интерфейсе узла |
Может снижаться скорость передачи данных по сети Может влиять на сетевую доступность узла или ВМ |
Проанализировать и проверить настройки сетевого интерфейса ВМ, интерфейса узла. Привести настройки к рекомендованным значениям. |
MTU mismatch |
KeyStack - System |
node_exporter |
node_network_mtu_bytes{device="mgmt"} - node_network_mtu_bytes{device=~"(tap.*)"} |
Warning, если разница между значением MTU узла и значением MTU ВМ < 0 |
VM |
Изменение AZ для ВМ |
Произведена миграция ВМ в другую AZ |
Может влиять на работу механизма DRS |
Проанализировать статус ВМ и гипервизоров. Проанализировать журналы действий над ВМ. При необходимости вернуть ВМ в нужную AZ. |
VMchangeAZ |
KeyStack - System |
Warning, если произошла смена AZ |
||
VM |
Проверка CPU Steal time |
ВМ долго ждут исполнения на процессоре |
Замедление работы ВМ, потенциальный отказ от обслуживания |
С помощью 'htop' или 'top' выявить наиболее активных потребителей процессорного времени. Проанализировать исторические данные по нагрузке на процессор. Проверить, что режим работы центрального процессора установлен на 'performance'. Проанализировать данные по потреблению процессорных ресурсов виртуальными машинами. |
Host with High VM CPU Steal time |
KeyStack - System |
libvirt_exporter |
libvirt_domain_vcpu_delay_seconds_total * 100 |
Warning, если значение cpu steal time для ВМ > 5% |
VM |
Статус ВМ |
ВМ длительное время не меняет свой статус |
Замедление работы ВМ, потенциальный отказ от обслуживания |
Проверить размер ВМ — для ВМ с большим количеством выделенных ресурсов длительная смена статуса 'Migrationg', 'Resize' или 'Rebuild' может быть нормальным поведением. Проверить работу сервиса RabbitMQ: состояние и журналы сервиса, состояние и журналы контейнера, очереди. Проверить состояние и журналы контейнеров nova_* на гипервизоре-источнике и приёмнике. |
VMStatusChangeTooLong |
KeyStack - System |
openstack_exporter |
openstack_nova_server_status |
Warning, если статус =~ "MIGRATING|RESIZE|REBUILD" более 2х минут |
VM |
Дубликат IPv4 на ВМ |
В регионе обнаружено несколько виртуальных машин с одинаковым IP адресом |
Нарушение сетевого взаимодействия виртуальных машин с одинаковыми IP адресами и остальным сетевым окружением, в случае нахождения таких ВМ в одной сети или в случае настроенной маршрутизации между сетями, где размещаются такие ВМ |
Выявить виртуальные машины с одинаковыми IP адресами. Проверить находятся ли они в одной сети. Проверить настроена ли маршрутизация между сетями, где размещаются ВМ с совпадающими IP адресами. В случае нахождения ВМ с одинаковыми IP адресами в одной сети для каждой затронутой ВМ установить уникальный IP адрес. В случае нахождения ВМ с одинаковыми IP адресами в разных сетях и настроенной маршрутизации между этими сетями для каждой затронутой ВМ установить уникальный IP адрес. |
VmDuplicateIPAddressDetected |
KeyStack - System |
openstack_exporter |
openstack_nova_server_net_info |
Warning, если count by (addr) > 1 |
VM |
Аварийное завершение QEMU-процесса |
В лог-файлах зафиксированы записи о нештатной остановке ВМ |
Влияет на доступность ВМ |
Проанализировать статус ВМ и гипервизора. Проанализировать журналы действий над ВМ. Проанализировать журналы узла и сервиса nova. |
VMunexpectedShutdown |
KeyStack - System |
fluentd exporter |
fluentd_input_VM_unexpected_shutdown_records_total |
Warning, если в логах фиксируются новые записи |
Мониторинг¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
Prometheus |
Не удалось обновить конфигурацию Prometheus |
Файл Prometheus конфигурации содержит ошибки |
Влияет на доступность мониторинга |
Зайти на узел, проверить журнал prometheus контейнера, исправить ошибки в конфигурации. |
PrometheusConfigurationReloadFailure |
Keystack - Prometheus |
prometheus_exporter |
prometheus_config_last_reload_successful |
Warning, если != 1 |
Prometheus |
Количество перезапусков prometheus превышает норму |
Сервисы prometheus часто перезапускаются |
Влияет на доступность мониторинга |
Зайти на узел, проверить журнал prometheus контейнера, исправить ошибки в конфигурации. |
PrometheusTooManyRestarts |
Keystack - Prometheus |
prometheus_exporter |
changes(process_start_time_seconds{job=~"prometheus|pushgateway|alertmanager"}[15m]) |
Warning, если за 15 мин кол-во изменений времени старта процесса > 2 |
Prometheus |
Задача AlertManager не найдена |
Задача AlertManager отсутствует |
Влияет на отправку уведомлений о наступлении событий |
Зайти на узел, проверить журнал alertmanager контейнера, исправить ошибки в конфигурации. |
PrometheusAlertmanagerJobMissing |
Keystack - Prometheus |
prometheus_exporter |
absent(up{job="alertmanager"}) |
Warning, если условие выполняется |
Prometheus |
Не удалось обновить конфигурацию AlertManager |
Файл конфигурации AlertManager содержит ошибки |
Влияет на отправку уведомлений о наступлении событий |
Зайти на узел, проверить журнал alertmanager контейнера, исправить ошибки в конфигурации. |
PrometheusAlertmanagerConfigurationReloadFailure |
Keystack - Prometheus |
prometheus_exporter |
alertmanager_config_last_reload_successful |
Warning, если != 1 |
Prometheus |
Конфигурация Alertmanager не синхронизирована между всеми узлами кластера |
Конфигурация Alertmanager не синхронизирована между всеми узлами кластера |
Влияет на отправку уведомлений о наступлении событий |
Проверить журналы контейнеров alertmanager на управляющих узлах. |
PrometheusAlertmanagerConfigNotSynced |
Keystack - Prometheus |
prometheus_exporter |
count(count_values("config_hash", alertmanager_config_hash)) |
Warning, если > 1 |
Prometheus |
Подключение Prometheus к Alertmanager |
Prometheus не смог подключиться к Alertmanager |
Влияет на отправку уведомлений о наступлении событий |
Зайти на узел, проверить журнал alertmanager и prometheus контейнеров, исправить ошибки в конфигурации. |
PrometheusNotConnectedToAlertmanager |
Keystack - Prometheus |
prometheus_exporter |
prometheus_notifications_alertmanagers_discovered |
Critical, если < 1 |
Prometheus |
Состояние правил Prometheus |
Prometheus не смог обработать правило алерта |
Влияет на обработку правил алертов и отправку уведомлений по ним |
Проверить статус Health для правил алертов. Проанализировать сообщение об ошибке для правила алерта, при его наличии. Зайти на узел, проверить журнал prometheus контейнера. Исправить запрос в правиле алерта. Исправить ошибки в конфигурации. |
PrometheusRuleEvaluationFailures |
Keystack - Prometheus |
prometheus_exporter |
increase(prometheus_rule_evaluation_failures_total[3m]) |
Critical, если > 0 |
Prometheus |
Состояние службы уведомлений |
AlertManager не смог отправить уведомление о событии |
Влияет на отправку уведомлений о наступлении событий |
Зайти на узел, проверить журнал alertmanager контейнера, исправить ошибки в конфигурации. |
PrometheusAlertmanagerNotificationFailing |
Keystack - Prometheus |
prometheus_exporter |
rate(alertmanager_notifications_failed_total[1m]) |
Critical, если > 0 |
Prometheus |
Отсутствуют таргеты Prometheus |
Конфигурация Prometheus не содержит таргетов |
Влияет на работу мониторинга |
Проверить конфигурацию prometheus, проверить журналы настройки узлов. |
PrometheusTargetEmpty |
Keystack - Prometheus |
prometheus_exporter |
prometheus_sd_discovered_targets |
Critical, если = 0 |
Prometheus |
Скорость скрейпинга |
Скрейпинг таргетов Prometheus замедлился |
Влияет на работу мониторинга |
Зайти на узел, проверить доступность ресурсов и давление на память, проверить загруженность сетевых интерфейсов. |
PrometheusTargetScrapingSlow |
Keystack - Prometheus |
prometheus_exporter |
prometheus_target_interval_length_seconds |
Warning, если отношение 90% перцентиля к 50% перцентилю > 1.05 |
Prometheus |
Состояние скрейпинга |
Скрейпинг занимает больше времени чем установленный лимит по времени |
Влияет на доступность мониторинга |
Сменить лимит по времени и пересмотреть конфигурацию скрейпа. |
PrometheusLargeScrape |
Keystack - Prometheus |
prometheus_exporter |
increase(prometheus_target_scrapes_exceeded_sample_limit_total[10m]) |
Warning, если > 10 |
Prometheus |
Состояние скрейпинга |
Скрейпинг таргета Prometheus предоставил одинаковые значения для разного времени |
Влияет на актуальность данных мониторинга |
Зайти на узел и проверить актуальность данных сервиса который передает не корректные данные. |
PrometheusTargetScrapeDuplicate |
Keystack - Prometheus |
prometheus_exporter |
increase(prometheus_target_scrapes_sample_duplicate_timestamp_total[5m]) |
Warning, если > 0 |
Prometheus |
Состояние openstack exporter |
Неработоспособность экспортёра и невозможность отдавать метрики, или недоступность узла, или сбой балансировщика, или сбой в сети |
Отсутствие мониторинга и сбора метрик компонентов OpenStack |
Убедиться в работоспособности контейнеров prometheus_openstack_exporter. Проверить журналы контейнеров. Убедиться в работоспособности балансировщика. |
OpenstackExporterDown |
Keystack - Prometheus |
openstack_exporter |
avg_over_time(max by (instance) (up{job="openstack_exporter"})[5m:30s]) |
Critical, если < 0.85 |
Prometheus |
Состояние blackbox exporter |
Экземпляр blackbox exporter на узле не доступен, выключен или неисправен |
Отсутствие мониторинга доступности nova-api с узлов |
Проверить сетевую связность между управляющими узлами и узлом с экземпляром blackbox exporter. Проверить корректность маршрутов. Проверить статус контейнера prometheus_blackbox_exporter, проверить журналы контейнера. Проверить разрешение DNS имён на узле с экземпляром prometheus_blackbox_exporter. |
BlackboxExporterDown |
Keystack - Prometheus |
blackbox exporter |
up{job="blackbox_exporter_blackhole_check"} |
Warning, если group by(source) = 0 |
Оборудование¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
Redfish |
Состояние серверного аппаратного обеспечения |
Неработоспособность экспортёра и невозможность отдавать метрики или недоступность узла, или сбой по сети |
Отсутствие мониторинга и сбора метрик BMC |
Убедиться в работоспособности контейнера redfish. Проверить журналы контейнера. Проверить сетевую связность между управляющими узлами и адресами BMC-интерфейсов, а также корректность маршрутов. |
BMC_RedfishExporterTargetsOutage |
KeyStack - Redfish |
redfish_exporter |
up{job="redfish_exporter"} |
Critical, если max(avg_over_time(max by (bmc_address)) < 0.85 |
Redfish |
Состояние серверного аппаратного обеспечения |
Неработоспособность экспортёра и невозможность отдавать метрики или недоступность узла, или сбой по сети |
Отсутствие мониторинга и сбора метрик BMC |
Убедиться в работоспособности контейнера redfish. Проверить журналы контейнера. Убедиться в корректности разрешения DNS-имён для адреса BMC-интерфейса. Проверить сетевую связность между управляющими узлами и адресом BMC-интерфейса, а также корректность маршрутов. |
BMC_RedfishExporterTargetDown |
KeyStack - Redfish |
redfish_exporter |
up{job="redfish_exporter"} |
Warning, если avg_over_time(max by (bmc_address) < 0.85 |
Redfish |
Состояние серверного аппаратного обеспечения |
Сервер выключен |
Недоступность гипервизора или управляющей ноды |
Проверить легитимность нахождения сервера в выключенном состоянии. Проверить состояние аппаратной части сервера. Проверить температурные показатели сервера. |
BMC_Power_Off |
KeyStack - Redfish |
redfish_exporter |
group by (bmc_address, hostname) (last_over_time(redfish_system_power_on[5m:]) |
Critical, если !=1 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлено, что имеются предупреждения или ошибки на всех блоках питания сервера |
Высокая вероятность недоступности гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить настройки BMC сервера, связанные с электропитанием. Проверить наличие поступающего напряжения сетевого питания. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Power_Supply_Health_Outage |
KeyStack - Redfish |
redfish_exporter |
count by (bmc_address, hostname) (group by (bmc_address, hostname, id) (last_over_time(redfish_power_supply_health[5m:]))) - count by (bmc_address, hostname) (group by (bmc_address, hostname, id) (last_over_time(redfish_power_supply_health[5m:]) != 0)) |
Critical, если == 0 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлена критическая ошибка в работе блока питания |
Возможна внезапная недоступность гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить настройки BMC сервера, связанные с сетевым питанием. Проверить подачу напряжения на блок питания. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. |
BMC_Power_Supply_Health_Critical |
KeyStack - Redfish |
redfish_exporter |
redfish_power_supply_health |
Critical, если == 2 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлены предупреждения в работе блока питания |
Возможна недоступность гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить настройки BMC сервера, связанные с сетевым питанием. Проверить температурные показатели сервера. Проверить наличие поступающего напряжения сетевого питания. Провести диагностику аппаратной части сервера. |
BMC_Power_Supply_Health_Warning |
KeyStack - Redfish |
redfish_exporter |
redfish_power_supply_health |
Warning, если == 1 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера зафиксирована критическая ошибка |
Уменьшение производительности сервера Вероятность выхода из строя компонентов аппаратной части сервера Вероятность недоступности гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. |
BMC_System_Health_Critical |
KeyStack - Redfish |
redfish_exporter |
redfish_system_health |
Critical, если == 2 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера обнаружено предупреждение |
Уменьшение производительности сервера Вероятность выхода из строя компонентов аппаратной части сервера Вероятность недоступности гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. |
BMC_System_Health_Warning |
KeyStack - Redfish |
redfish_exporter |
redfish_system_health |
Critical, если == 1 |
Redfish |
Состояние серверного аппаратного обеспечения |
Зафиксировано изменение количества доступных CPU серверу |
Уменьшение производительности сервера Возможна недоступность гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_CPU_Count |
KeyStack - Redfish |
redfish_exporter |
redfish_system_cpu_count |
Critical, если unless redfish_system_cpu_count offset 5m |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлены предупреждения или критические ошибки во всех модулях ОЗУ |
Высокая вероятность недоступности сервера Вероятность повреждения данных |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Memory_Module_Health_Outage |
KeyStack - Redfish |
redfish_exporter |
count by (bmc_address, hostname) (group by (bmc_address, hostname, id) (last_over_time(redfish_memory_module_health[5m:]))) - count by (bmc_address, hostname) (group by (bmc_address, hostname, id) (last_over_time(redfish_memory_module_health[5m:]) != 0)) |
Critical, если == 0 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлены критические ошибки в работе модуля ОЗУ |
Снижение производительности сервера Возможно уменьшение доступного объёма ОЗУ Высокая вероятность повреждения данных |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Memory_Module_Health_Critical |
KeyStack - Redfish |
redfish_exporter |
redfish_memory_module_health |
Critical, если == 2 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлены ошибки в работе модуля ОЗУ |
Снижение производительности сервера Возможно уменьшение доступного объёма ОЗУ Вероятность повреждения данных |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Memory_Module_Health_Warning |
KeyStack - Redfish |
redfish_exporter |
redfish_memory_module_health |
Warning, если == 1 |
Redfish |
Состояние серверного аппаратного обеспечения |
Сетевой порт интерфейса перестал быть активным |
Недоступность сервера через сетевой интерфейс Возможно уменьшение пропускной способности или потеря отказоустойчивости агрегированного сетевого интерфейса |
Проверить статус сетевых интерфейсов. Проанализировать журналы на узле на предмет ручного отключения сетевого интерфейса. Проверить настройки соответствующего порта на сетевом коммутаторе. Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Провести диагностику аппаратной части сервера. |
BMC_Network_Port_Link_Up |
KeyStack - Redfish |
redfish_exporter |
redfish_network_port_link_up |
Warning, если == 0 |
Redfish |
Состояние серверного аппаратного обеспечения |
Системой самопроверки аппаратной части сервера зафиксирована критическая ошибка в работе носителя данных |
Вероятность повреждения или потери данных Вероятность уменьшения производительности сервера |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Drive_Health_Critical |
KeyStack - Redfish |
redfish_exporter |
redfish_drive_health |
Critical, если == 2 |
Redfish |
Состояние серверного аппаратного обеспечения |
Системой самопроверки аппаратной части сервера зафиксировано предупреждение в работе носителя данных |
Вероятность повреждения или потери данных |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить температурные показатели сервера. Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Drive_Health_Warning |
KeyStack - Redfish |
redfish_exporter |
redfish_drive_health |
Warning, если == 1 |
Redfish |
Состояние серверного аппаратного обеспечения |
Самопроверкой аппаратной части сервера выявлены предупреждения или критические ошибки во всех компонентах системы охлаждения сервера |
Повышение температуры аппаратной части сервера Уменьшение производительности сервера Вероятность повреждения компонентов аппаратной части сервера Недоступность гипервизора или управляющей ноды Высокая вероятность повреждения данных |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить настройки BMC сервера, связанные с системой охлаждения сервера (вентиляторов). Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Sensors_Fan_Health_Outage |
KeyStack - Redfish |
redfish_exporter |
count by (bmc_address, hostname) (group by (bmc_address, hostname, id) (last_over_time(redfish_sensors_fan_health[5m:]))) - count by (bmc_address, hostname) (group by (bmc_address, hostname, id) (last_over_time(redfish_sensors_fan_health[5m:]) != 0)) |
Critical, если == 0 |
Redfish |
Состояние серверного аппаратного обеспечения |
Системой самопроверки аппаратной части сервера зафиксирована критическая ошибка в работе системы охлаждения сервера |
Повышение температуры аппаратной части сервера Уменьшение производительности сервера Вероятность повреждения компонентов аппаратной части сервера Недоступность гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить настройки BMC сервера, связанные с системой охлаждения сервера (вентиляторов). Провести диагностику аппаратной части сервера. При необходимости перевести узел в режим обслуживания (maintenance mode) для последующего ремонта. |
BMC_Sensors_Fan_Health_Critical |
KeyStack - Redfish |
redfish_exporter |
redfish_sensors_fan_health |
Critical, если == 2 |
Redfish |
Состояние серверного аппаратного обеспечения |
Системой самопроверки аппаратной части сервера зафиксировано предупреждение в работе системы охлаждения сервера |
Повышение температуры аппаратной части сервера Уменьшение производительности сервера Вероятность повреждения компонентов аппаратной части сервера Недоступность гипервизора или управляющей ноды |
Проанализировать журналы BMC сервера на наличие ошибок или предупреждений. Проверить настройки BMC сервера, связанные с системой охлаждения сервера (вентиляторов). Провести диагностику аппаратной части сервера. |
BMC_Sensors_Fan_Health_Warning |
KeyStack - Redfish |
redfish_exporter |
redfish_sensors_fan_health |
Warning, если == 1 |
SMART |
Состояние дисковых накопителей на основе параметров S.M.A.R.T |
Неработоспособность экспортёра и невозможность отдавать метрики или недоступность узла, или сбой по сети |
Отсутствие мониторинга и сбора метрик состояния дисковых накопителей |
Убедиться в работоспособности контейнера smartctl. Проверить журналы контейнера. |
SmartctlExporterTargetDown |
KeyStack - SMART |
smartctl exporter |
up{job="smartctl_exporter"} |
Warning, если == 0 |
SMART |
Состояние NVMe накопителей на основе параметров S.M.A.R.T |
Зафиксированы критические ошибки в работе накопителя |
Вероятность отказа накопителя и потери данных |
Зайти на узел и проанализировать состояние устройства. При необходимости произвести замену устройства. |
DeviceCriticalWarning |
KeyStack - SMART |
smartctl exporter |
smartctl_device_critical_warning |
Critical, если > 0 |
SMART |
Состояние NVMe накопителей на основе параметров S.M.A.R.T |
Значение доступной резервной ёмкости ниже порогового значения |
Невозможность подмены вышедших из строя ячеек памяти |
Зайти на узел и проанализировать состояние устройства. При необходимости произвести замену устройства. |
DeviceAvailableSpare |
KeyStack - SMART |
smartctl exporter |
smartctl_device_available_spare |
Warning, если < 20 Critical, если < smartctl_device_available_spare_threshold |
SMART |
Состояние NVMe накопителей на основе параметров S.M.A.R.T |
Высокий уровень износа накопителя |
Вероятность перехода накопителя в режим для чтения Вероятность отказа накопителя и потери данных |
Зайти на узел и проанализировать состояние устройства. При необходимости произвести замену устройства. |
DevicePercentageUsed |
KeyStack - SMART |
smartctl exporter |
smartctl_device_percentage_used |
Warning, если > 90 Critical, если > 95 |
SMART |
Состояние NVMe накопителей на основе параметров S.M.A.R.T |
Высокая температура накопителя |
Вероятность отказа накопителя и потери данных |
Зайти на узел и проанализировать состояние устройства. При необходимости произвести замену устройства. |
DeviceHighTemperature |
KeyStack - SMART |
smartctl exporter |
smartctl_device_temperature{temperature_type="current"} |
Warning, если > 60 Critical, если > 75 |
SMART |
Состояние NVMe накопителей на основе параметров S.M.A.R.T |
Обнаружена неустранимая ошибка целостности данных |
Вероятность отказа накопителя и потери данных |
Зайти на узел и проанализировать состояние устройства. При постоянном росте значения произвести замену устройства. |
DeviceMediaErrors |
KeyStack - SMART |
smartctl exporter |
increase(smartctl_device_media_errors[5m]) |
Warning, если > 0 |
SMART |
Состояние NVMe накопителей на основе параметров S.M.A.R.T |
С некоторых накопителей не были получены данные SMART |
Отсутствие мониторинга и сбора метрик состояния дисковых накопителей |
Зайти на узел и проанализировать перечень и тип установленных накопителей. Проанализировать конфигурацию smartctl-экспортёра. Проанализировать журналы контейнера smartctl. При необходимости внести изменения в команду запуска smartctl-экспортёра. |
SmartctlExporterConfigWarning |
KeyStack - SMART |
smartctl exporter |
smartctl_device |
Info, если count(smartctl_device) < scalar(smartctl_devices) |
Сеть¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
Multipath |
Состояние multipath устройств |
На узле обнаружены недоступные multipath-устройства |
Может влиять на доступность и целостность дисков ВМ Может влиять на доступность ВМ Может влиять на работоспособность gitlab pipelines |
Определить принадлежность multipath-устройства к ВМ. Проанализировать статус ВМ и гипервизора. Проанализировать журналы действий над ВМ. Проанализировать журнал dmesg на узле. Проверить отсутствие ошибок аппаратного обеспечения на узле: HBA-адаптера, статус FC-линков, наличие ошибок в передаче фреймов. Проверить настройки порта и зон на FC-коммутаторе. Провести диагностику состояния СХД. |
DeadMultipathDeviceDetected |
KeyStack - Multipath |
multipath exporter |
multipathd_info{vend="##",prod="##"} |
Warning, если в течение 5 мин наблюдаются устройства с vend="##" и prod="##" |
Multipath |
Состояние multipath путей |
У multipath-устройства зафиксированы переходы путей в статус 'сбойный' |
Может влиять на доступность и целостность дисков ВМ Может влиять на доступность ВМ |
Проанализировать журнал dmesg на узле. Проверить отсутствие ошибок аппаратного обеспечения на узле: HBA-адаптера, статус FC-линков, наличие ошибок в передаче фреймов. Проверить настройки порта и зон на FC-коммутаторе. Провести диагностику состояния СХД. |
DMPathFaultsDetected |
KeyStack - Multipath |
multipath exporter |
multipath_errors_total |
Warning, если > 0 |
Multipath |
Состояние multipath путей |
У multipath-устройства не обнаружено ни одного рабочего пути |
Может влиять на доступность и целостность дисков ВМ Может влиять на доступность ВМ |
Проанализировать журнал dmesg на узле. Проверить отсутствие ошибок аппаратного обеспечения на узле: HBA-адаптера, статус FC-линков, наличие ошибок в передаче фреймов. Проверить настройки порта и зон на FC-коммутаторе. Провести диагностику состояния СХД. |
DMPathOutage |
KeyStack - Multipath |
multipath exporter |
multipath_status{paths="0"} |
Critical, если в течение 5 мин условие выполняется |
Multipath |
Состояние multipath путей |
У multipath-устройства обнаружены сбойные пути |
Может влиять на доступность и целостность дисков ВМ Может влиять на доступность ВМ |
Проанализировать журнал dmesg на узле. Проверить отсутствие ошибок аппаратного обеспечения на узле: HBA-адаптера, статус FC-линков, наличие ошибок в передаче фреймов. Проверить настройки порта и зон на FC-коммутаторе. Провести диагностику состояния СХД. |
DMPathFaulure |
KeyStack - Multipath |
multipath exporter |
multipath_path_status == 0 |
Warning, если в течение 5 мин условие выполняется |
OVS |
Ошибки на OVS-интерфейсах |
Часть получаемых сетевых пакетов на tap-интерфейсах были отброшены |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsRxPacketsDroppedTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_rx_dropped{name=~"tap.+"}[2m]) |
Warning, если > 120 |
OVS |
Ошибки на OVS-интерфейсах |
Часть отправляемых сетевых пакетов на tap-интерфейсах были отброшены |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsTxPacketsDroppedTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_tx_dropped{name=~"tap.+"}[2m]) |
Warning, если > 200 |
OVS |
Ошибки на OVS-интерфейсах |
Зафиксированы ошибки в сетевых пакетах во входящем трафике на tap-интерфейсах |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsRxPacketsErrorTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_rx_errors{name=~"tap.+"}[2m]) |
Warning, если > 0 |
OVS |
Ошибки на OVS-интерфейсах |
Зафиксированы ошибки в сетевых пакетах в исходящем трафике на tap-интерфейсах |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsTxPacketsErrorTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_tx_errors{name=~"tap.+"}[2m]) |
Warning, если > 0 |
OVS |
Ошибки на OVS-интерфейсах |
Зафиксированы ошибки фреймов в сетевых пакетах во входящем трафике на tap-интерфейсах |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsRxFrameErrorTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_rx_frame_err{name=~"tap.+"}[2m]) |
Warning, если > 0 |
OVS |
Ошибки на OVS-интерфейсах |
Зафиксированы CRC-ошибки в сетевых пакетах во входящем трафике на tap-интерфейсах |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsRxCRCErrorTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_rx_crc_err{name=~"tap.+"}[2m]) |
Warning, если > 0 |
OVS |
Ошибки на OVS-интерфейсах |
Зафиксированы пропущенные сетевые пакеты во входящем трафике на tap-интерфейсах |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsRxMissedErrorTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_rx_missed_errors{name=~"tap.+"}[2m]) |
Warning, если > 0 |
OVS |
Ошибки на OVS-интерфейсах |
Зафиксированы сетевые пакеты с RX overrun во входящем трафике на tap-интерфейсах |
Может влиять на трафик виртуальных машин |
Проверить утилизацию гипервизора. Проанализировать журналы гипервизора. |
OvsRxOverrunErrorTooHigh |
KeyStack - OVS |
ovs_exporter |
rate(ovs_interface_rx_over_err{name=~"tap.+"}[2m]) |
Warning, если > 0 |
Bird |
Состояние сервиса bird |
Нарушение пиринга с удалённым маршрутизатором |
Работоспособность и доступность облака в целом |
Проанализировать журналы сервиса bird и его docker-контейнера. С помощью утилиты birdc проанализировать список BGP-соседей и состояние BGP-сессий. |
BirdProtocolDown |
KeyStack - Bird |
bird exporter |
bird_protocol_up{name=~"uplink.?", proto="BGP"} |
Critical, если sum by (proto,ip_version) = 0 |
Bird |
Состояние сервиса bird |
Нарушение пиринга с удалённым маршрутизатором |
Работоспособность и доступность облака в целом |
Проанализировать журналы сервиса bird и его docker-контейнера. С помощью утилиты birdc проанализировать список BGP-соседей и состояние BGP-сессий. |
BirdProtocolDown |
KeyStack - Bird |
bird exporter |
bird_protocol_up{name=~"uplink.?", proto="BGP"} |
Warning, если != 1 |
Bird |
Состояние сервиса bird |
Сервис bird не отправляет к аплинку все требуемые маршруты на более чем одном узле |
Работоспособность облака в целом |
Проанализировать журналы сервиса bird и его docker-контейнеров. Проанализировать журналы сервиса exabgp и его docker-контейнеров. |
BirdNoRoutesToUplink |
KeyStack - Bird |
bird exporter |
(bird_protocol_prefix_export_count{name=~"uplink.?",proto="BGP"} - on(instance) group_left (proto) bird_protocol_prefix_import_count{name="exabgp",proto="BGP"} < 0)) |
Critical, если count by (instance,proto,ip_version) > 1 |
Bird |
Состояние сервиса bird |
Сервис bird не отправляет к аплинку все требуемые маршруты |
Работоспособность облака в целом |
Проанализировать журналы сервиса bird и его docker-контейнера. Проанализировать журналы сервиса exabgp и его docker-контейнера. |
BirdNoRoutesToUplink |
KeyStack - Bird |
bird exporter |
bird_protocol_prefix_export_count{name=~"uplink.?",proto="BGP"} - on(instance) group_left (proto) bird_protocol_prefix_import_count{name="exabgp",proto="BGP"} |
Warning, если < 0 |
Bird |
Невозможность подключения к сокету сервиса bird |
Неработоспособность экспортёра или сервиса bird |
Отсутствие возможности мониторинга и сбора метрик сервиса bird |
Убедиться в работоспособности контейнера bird_exporter. Проверить журналы контейнера. Проанализировать журналы сервиса bird и его docker-контейнера. |
BirdSocketQueryNotSuccess |
KeyStack - Bird |
bird exporter |
bird_socket_query_success |
Critical, если sum = 0 |
Bird |
Невозможность подключения к сокету сервиса bird |
Неработоспособность экспортёра или сервиса bird |
Отсутствие возможности мониторинга и сбора метрик сервиса bird |
Убедиться в работоспособности контейнера bird_exporter. Проверить журналы контейнера. Проанализировать журналы сервиса bird и его docker-контейнера. |
BirdSocketQueryNotSuccess |
KeyStack - Bird |
bird exporter |
bird_socket_query_success |
Warning, если = 0 |
Контейнеры¶
Компонент |
Что проверяется |
Что означает алерт |
На что влияет |
Необходимые действия |
Имя алерта |
Группа алерта |
Экспортёр |
Метрика |
Порог алерта |
|---|---|---|---|---|---|---|---|---|---|
Docker |
Завершенный процесс контейнера |
docker-контейнер был остановлен |
Отказоустойчивость облака или доступность сервисов может быть нарушена |
Зайти на узел и посмотреть статусы docker-контейнеров, какие были недавно перезапущены, посмотреть их журналы. |
ContainerKilled |
KeyStack - Docker |
cadvisor exporter |
container_last_seen |
Warning, если разница между текущим временем и значением метрики > 120 сек |