Обеспечение надёжности KeyStack¶
Реализация отказоустойчивости¶
Отказоустойчивость инсталляций KeyStack реализуется следующими механизмами защиты (со 100% совместимостью с upstream-кодом):
Отказоустойчивость control plane¶
Кластеризация контроллеров
Выделяется 3 или более контроллеров для создания кворума, что обеспечивает продолжение работы системы при выходе из строя части узлов управления.
Stateless API-сервисы
Все API-сервисы OpenStack являются stateless и запускаются на каждом контроллере с балансировкой через HAProxy, что позволяет равномерно распределять нагрузку и обеспечивать отказоустойчивость.
Кластеризуемые сервисы в режиме Active-Active
Сервисы, поддерживающие кластеризацию, разворачиваются в режиме "Active-Active" для обеспечения непрерывности работы.
Защита СУБД
Защита системы управления базами данных осуществляется с помощью MariaDB Galera, которая обеспечивает синхронную репликацию данных между узлами кластера.
Отказоустойчивость data plane¶
Резервирование мощностей
Мощности data plane рассчитываются с запасом, чтобы HA-модуль ITKey смог успешно отработать перенос виртуальных машин при сбоях оборудования.
HA-модуль ITKey
Проприетарный модуль высокой доступности обеспечивает автоматическую миграцию виртуальных машин с неисправных узлов на работоспособные без вмешательства администратора.
DRS-модуль ITKey
Модуль динамического распределения ресурсов автоматически балансирует нагрузку между узлами, предотвращая перегрузку отдельных серверов и оптимизируя использование ресурсов.
Дополнительные функции надёжности¶
Системы резервного копирования¶
KeyStack интегрируется с системами резервного копирования для обеспечения сохранности данных:
Снапшоты томов
Автоматическое создание снимков дисков виртуальных машин через сервис Cinder с возможностью настройки расписания и политик хранения.
Резервное копирование образов
Репликация образов операционных систем в сервисе Glance для обеспечения доступности шаблонов развёртывания.
Бэкап конфигураций
Автоматическое сохранение конфигураций всех сервисов OpenStack для быстрого восстановления после сбоев.
Мониторинг и оповещения¶
Проактивный мониторинг
Система мониторинга на базе Prometheus отслеживает состояние всех компонентов и предупреждает о потенциальных проблемах до их критического развития.
Автоматические оповещения
Настраиваемые правила оповещения о критических событиях с возможностью интеграции с внешними системами уведомлений.
Мониторинг SLA
Отслеживание показателей доступности сервисов и соответствия соглашениям об уровне обслуживания.
Аварийное восстановление¶
Репликация данных
Синхронизация критически важных данных между географически распределёнными площадками для обеспечения непрерывности бизнеса.
Hystax DR интеграция
Интеграция с партнёрским решением Hystax для обеспечения аварийного восстановления и миграции между различными инфраструктурами.
Тестирование DR-процедур
Регулярное тестирование процедур аварийного восстановления для подтверждения их работоспособности.
Процедуры обслуживания¶
Rolling updates
Поэтапное обновление компонентов системы без прерывания обслуживания пользователей.
Blue-green развёртывание
Использование параллельных сред для тестирования обновлений перед их применением в продуктивной среде.
Автоматический откат
Возможность автоматического возврата к предыдущей версии при обнаружении проблем после обновления.
Планирование ёмкости¶
Прогнозирование роста
Анализ трендов использования ресурсов для планирования расширения инфраструктуры.
Автоматическое масштабирование
Возможности автоматического добавления вычислительных ресурсов при достижении пороговых значений нагрузки.
Оптимизация размещения
Интеллектуальное размещение виртуальных машин с учётом требований к производительности и отказоустойчивости.