Управление физической инфраструктурой

Управление физической инфраструктурой через NetBox описано в разделе NetBox — Управление физической инфраструктурой.

Режим обслуживания вычислительных узлов (гипервизоров)

Для обслуживания вычислительного узла (гипервизора) предусмотрен механизм временной деактивации этого узла внутри кластера. На время деактивации узел будет исключён из пула планирования, однако продолжит быть участником кластера.

На Портале администратора можно отследить процесс перехода гипервизора в режим обслуживания (maintenance mode). Для этого нужно перейти в раздел Вычислительные ресурсы > Гипервизоры и посмотреть значение в столбце admin_state. При выборе действия Enable maintenance mode гипервизор переходит в режим обслуживания, а статус и значение admin_state меняется на EnteringMaintenanceMode. После окончания перевода в режим обслуживания статус гипервизора будет отображён как MaintenanceMode.

Перед переводом узла в режим обслуживания рекомендуется настроить параметр maintenance_mode_inspection_deadline в конфигурационном файле adminui-backend-osloconf.conf. Параметр задаёт максимальное время ожидания завершения миграции одной группы ВМ (в секундах), а также применяется при ожидании возврата ВМ в группу серверов. Значение по умолчанию — 300 секунд. В средах с большим количеством ВМ, высокой нагрузкой на них или при сочетании обоих факторов может потребоваться увеличение параметра в десятки и более раз относительно значения по умолчанию. Конкретное значение подбирается исходя из наблюдаемой нагрузки в среде.

Для изменения значения данного параметра выполните следующие действия:

  1. Откройте веб-интерфейс GitLab.

  2. Перейдите в репозиторий региона project_k / deployments / <имя региона>.

  3. Перейдите в директорию config / adminui. Если такой директории нет, создайте её.

  4. Откройте или создайте файл adminui-backend-osloconf.conf.

  5. Измените значение параметра maintenance_mode_inspection_deadline или добавьте его, если параметр в конфигурационном файле отсутствует. Параметр необходимо добавлять в группу опций [DEFAULT].

    [DEFAULT]
    maintenance_mode_inspection_deadline = 300
    
  6. Создайте новый пайплайн: Build > Pipelines > New Pipeline.

  7. В открывшемся окне укажите параметр KOLLA_ARGS со значением -t adminui.

  8. Запустите пайплайн: New pipeline.

  9. Дождитесь завершения выполнения операции.

Для перевода узла в режим обслуживания выполните следующие действия:

  1. На Портале администратора перейдите в раздел Вычислительные ресурсы > Гипервизоры.

  2. В выпадающем списке Actions для этого узла выберите действие Enable maintenance mode.

    Перевод вычислительного узла в режим обслуживания

    Перевод вычислительного узла в режим обслуживания

  3. Дождитесь, когда статус гипервизора сменится с EnteringMaintenanceMode на MaintenanceMode. Если по какой-то причине гипервизор не перешел в maintenance mode, это будет отображено в статусе так: disabled (Service was transitioned to Error.). В столбце admin_state будет описана причина — например, Error (Live migration of server N failed). В таком случае можно либо повторно попробовать перевести гипервизор в режим обслуживания, нажав Enable maintenance mode, либо вернуть его в статус enabled, выбрав Enable Service.

При переходе узла в режим обслуживания все ВМ начнут мигрировать с него на другие узлы без прерывания их работы. Также на время режима обслуживания на этом узле невозможно будет запустить новые ВМ.

Если гипервизор переведен в режим обслуживания, миграция ВМ с него происходит в соответствии с настройками max_concurrent_live_migrations: одновременно эвакуируется то количество машин, которое было указано в параметре. В случае отсутствия данной настройки в конфигурационных файлах машины будут эвакуироваться по одной за раз.

После перехода в режим обслуживания вычислительный узел можно отключить от питания и производить работы по ремонту или модернизации.

Для отключения или перезагрузки гипервизора выполните следующие действия:

  1. Убедитесь, что гипервизор корректно переведён в режим обслуживания: в столбце admin_state у такого гипервизора будет указано MaintenanceMode, а в столбце statusdisabled (Service was transitioned to MaintenanceMode.).

    Вычислительный узел в режиме обслуживания

    Вычислительный узел в режиме обслуживания

  2. Убедитесь, что все ВМ мигрировали с гипервизора: в столбце running_vms для него должно отображаться значение 0.

    Количество ВМ на гипервизоре в режиме обслуживания

    Количество ВМ на гипервизоре в режиме обслуживания

    Дополнительно проверить отсутствие ВМ на гипервизоре можно через страницу с диагностической информацией о нём. Для этого:

    1. В разделе Вычислительные ресурсы > Гипервизоры нажмите на ссылку в столбце id необходимого гипервизора.

      Переход к диагностической информации о гипервизоре

      Переход к диагностической информации о гипервизоре

    2. На открывшейся странице с диагностической информацией о гипервизоре перейдите на вкладку VMs. На данной вкладке отображается информация о виртуальных машинах, размещённых на гипервизоре. Для гипервизора, успешно переведённого в режим обслуживания, список должен быть пустым.

      Информация о виртуальных машинах гипервизора

      Информация о виртуальных машинах гипервизора

  3. Выполните перезагрузку или отключение гипервизора через BMC-интерфейс или любым удобным для вас способом.

Просмотр диагностической информации по гипервизору

На Портале администратора вы можете просматривать информацию о потребляемых ресурсах вычислительных узлов (гипервизоров).

Выключение и перезагрузка гипервизоров

Для выключения или перезагрузки гипервизора выполните следующие действия:

  1. В левом меню Портала администратора перейдите в раздел Вычислительные ресурсы > Гипервизоры.

  2. Выберите необходимый вам гипервизор и включите режим обслуживания, выбрав в колонке actions действие Enable maintenance mode.

    Режим обслуживания гипервизора

    Режим обслуживания гипервизора

  3. Подтвердите действие в открывшемся окне.

  4. В выпадающем списке actions выберите Power management:

    • Чтобы перезапустить гипервизор, нажмите Reboot.

    • Чтобы выключить гипервизор, нажмите Shutoff.

    Выключение и перезагрузка гипервизора

    Выключение и перезагрузка гипервизора

  5. Подтвердите действие в открывшемся окне.

  6. Для возвращения гипервизора в рабочий режим после перезагрузки отключите режим технического обслуживания гипервизора, выбрав в колонке actions действие Disable maintenance mode.

    Отключение режима технического обслуживания гипервизора

    Отключение режима технического обслуживания гипервизора

  7. Измененный статус гипервизора отобразится в колонке admin_state.

Фенсинг узлов (fencing)

Фенсинг узлов (гипервизоров) проводит HA. Фенсинг — механизм изоляции неисправного узла от других системных компонентов. Такой узел исключается из пула планирования ресурсов, а для расположенных на нём ВМ проводится эвакуация. Затем изолированный узел либо выключается, либо перезагружается в принудительном порядке.

После проведения фенсинга узлы могут оказаться в статусе fenced, что будет отражено на Портале администратора. Такие узлы опознаются по префиксу FENCED: в disabled_reason.

Чтобы вывести узлы из этого состояния, выполните следующие действия:

  1. В левом меню Портала перейдите в раздел Вычислительные ресурсы > Гипервизоры.

  2. Найдите в таблице узел, который выделен желтым цветом и обозначен меткой fenced.

  3. В выпадающем списке Actions для этого узла выберите действие Disable Fence Mode.

Узел в статусе «fenced»

Узел в статусе «fenced»

Эвакуация агрегатов

Вы можете переводить созданные агрегаты в режим высокой доступности (high availability или HA). В случае аварии могут быть эвакуированы только агрегаты, переведённые в этот режим.

При создании режим HA для агрегата включается автоматически. Если для агрегата не включен режим HA, возле его названия отображается метка no HA.

Для ручного перевода агрегата в режим HA выполните следующие действия:

  1. Перейдите в раздел Вычислительные ресурсы > Агрегаты.

  2. Посмотрите, какие агрегаты отмечены меткой no HA. Для этих агрегатов доступен перевод в режим HA.

  3. Переведите один или несколько агрегатов в режим HA:

    • Чтобы перевести в данный режим конкретный агрегат, выберите для него действие Enable evacuation в выпадающем списке в столбце actions.

    • Чтобы перевести в данный режим все агрегаты, имеющие метку, нажмите кнопку Enable Evacuation For All в верхней части интерфейса.

    Включение режима HA для агрегата

    Включение режима HA для агрегата

  4. Подтвердите действие, нажав Включить в открывшемся окне.

Для вывода агрегатов из режима HA повторите действия выше с тем отличием, что в выпадающем списке actions выберите Disable evacuation, а при выборе всех агрегатов — нажмите кнопку Disable Evacuation For All.