High availability (HA) ====================== **Автоматическая эвакуация виртуальных машин** Критерием срабатывания автоматики является одновременное совпадение следующих факторов: - Потеря кластером consul агента РЅР° узле Compute; - Узел Compute находится РІ статусе В«enabledВ»; - Узел Compute перешел РІ состояние В«downВ» (потеряна СЃРІСЏР·СЊ СЃРѕ службой nova-compute); - Потеряно РЅРµ более РґРІСѓС… узлов одновременно (Параметр может быть изменен. Является защитой РѕС‚ массовой потери большого количества узлов). Если будет недоступно более РґРІСѓС… (Рли РёРЅРѕРіРѕ указанного РІ параметрах количества) узлов compute одновременно, то предполагается, что возможна массовая авария оборудования, Рё РІ таком случае механизмы автоэвакуации РЅРµ срабатывают. **Настройка приоритетов эвакуации виртуальных машин** Администраторы РјРѕРіСѓС‚ настроить РїРѕСЂСЏРґРѕРє эвакуации Р’Рњ для оптимизации работы кластера путем выставления приоритетов РІ РІРёРґРµ метаданных (evacuate_order, no_evacuate for vm, no_evacuate for project) касаемо того, будет ли Р’Рњ эвакуироваться. **Режимы работы фенсинга РїРѕ питанию** Режим работы сервера после проведения фенсинга настраивается СЃ помощью параметра конфигурации ``bmc_power_fence_mode``: - poweroff (режим РїРѕ умолчанию) — РїСЂРё выборе этой опции РІ процессе фенсинга РїСЂРѕРёСЃС…РѕРґРёС‚ выключение сервера. - hardreboot — РїСЂРё выборе этой опции РїСЂРѕРёСЃС…РѕРґРёС‚ жесткая перезагрузка сервера. **Неудачный фенсинг Nova, Ceph или IPMI** Процесс эвакуации Р’Рњ будет приостановлен РїСЂРё обнаружении отказа узла кластера, РїСЂРё неудачной попытке: - исключения отказавшего узла РёР· кластера Nova (nova service disable); - исключения отказавшего узла РёР· кластера CEPH (osd blacklist); - выключения узла через IPMI (power off). **Уведомления** HA автоматически отправляет уведомления РІ мониторинговые системы Prometheus РїСЂРё возникновении проблем СЃ изоляцией узла РёР· любых вышеперечисленных сервисов, Р° также РїСЂРё начале эвакуации Рё РїСЂРё окончании эвакуации. Рто позволяет мониторить состояние системы Рё оперативно реагировать РЅР° инциденты. **Ограничение максимального количества вышедших РёР· строя узлов** РџСЂРё полной потере сетевой связанности СЃ несколькими РёР· Compute-узлов процесс автоматической эвакуации Р’Рњ РЅРµ будет запущен.