Каталог товаров
0
Корзина
Пустая корзина

В корзине пока ничего нет

Вы можете начать свой выбор с нашего каталога товаров или воспользоваться поиском, если ищете что-то конкретное.

Выбрать товары
Итоговая стоимость
+
Отложенные
Пустая корзина

В корзине пока ничего нет

Вы можете начать свой выбор с нашего каталога товаров или воспользоваться поиском, если ищете что-то конкретное.

Выбрать товары
Итого

Инженерная база знаний: Архитектура высокой доступности (HA) и Failover-кластеры

Сергей Коваль
Автор статьи: Сергей Коваль
(koval@andpro.ru) Опубликовано: 24 февраля 2024 Изменено: 21 апреля 2026
Архитектура высокой доступности (HA) и отказоустойчивость серверов Проектирование отказоустойчивых HA-кластеров. Аппаратное резервирование серверных узлов, расчет RTO/RPO и обеспечение бесперебойной работы критических бизнес-приложений.

В парадигме современного Enterprise-сегмента обеспечение бесперебойной работы ИТ-сервисов переходит из разряда «опций» в разряд базовых требований бизнеса. Высокая доступность (High Availability, HA) и отказоустойчивость (Fault Tolerance) — это системные характеристики инфраструктуры, минимизирующие или полностью исключающие простой (даунтайм) критически важных приложений при аппаратных или программных сбоях.

Метрики эффективности и целевые показатели

Проектирование HA-архитектуры начинается с определения целевых метрик, которые фиксируются в соглашении об уровне услуг (SLA):

  • RTO (Recovery Time Objective): допустимое время, в течение которого сервис может быть недоступен после сбоя.

  • RPO (Recovery Point Objective): допустимый объем потери данных, измеряемый во времени (например, потеря транзакций за последние 5 минут).

  • SLA 99.999%: «золотой стандарт» доступности, допускающий не более 5 минут 15 секунд простоя в год.

Классификация архитектур высокой доступности

Для выбора оптимальной топологии необходимо сопоставить стоимость внедрения с ценой простоя бизнеса. В таблице ниже приведен сравнительный анализ основных сценариев резервирования:

Топология кластера

Механизм переключения (Failover)

Метрика RTO

Сценарий применения

Active-Passive (Standby)

Нагрузка мигрирует на резервный узел при падении основного.

От 2 до 15 минут

Корпоративные порталы, ERP-системы, файловые хранилища.

Active-Active (Multimaster)

Трафик распределяется между всеми узлами одновременно через балансировщик.

Близко к 0 секунд

Высоконагруженные СУБД (Postgres Pro Enterprise), биллинг, API-шлюзы.

Кластер виртуализации (N+1)

Свободные ресурсы пула серверов используются для рестарта ВМ.

От 30 сек до 3 минут

Частные облака на базе платформ zVirt, РУСТЭК, или гиперконвергентные среды.


Аппаратный уровень: Устранение единых точек отказа (SPOF)

Физический фундамент отказоустойчивости строится на дублировании ключевых компонентов серверного шасси и сетевой инфраструктуры.

Подсистема питания и охлаждения

Использование серверных платформ с блоками питания стандарта CRPS (Common Redundant Power Supply) позволяет реализовать схемы резервирования 1+1 или 2+2 с поддержкой горячей замены. Каждый блок должен быть подключен к независимым линиям питания через интеллектуальные блоки распределения (Smart PDU).

Сетевой стек и интерконнект

Вместо классических топологий с использованием протокола STP в современных ЦОД применяется архитектура Spine-Leaf и агрегация каналов M-LAG. На уровне сервера это требует установки многопортовых адаптеров OCP 3.0, обеспечивающих избыточность подключений к разным коммутаторам Top-of-Rack (ToR).

Дисковые массивы и NVMe

Для критических нагрузок применяются Enterprise-накопители с двухпортовым интерфейсом (Dual-Port NVMe). Это позволяет двум независимым контроллерам иметь одновременный доступ к данным, что исключает потерю доступа при выходе из строя одного из путей передачи (Multipathing).

Программная отказоустойчивость и локализация

В условиях трансформации российского ИТ-рынка акцент в проектировании HA-систем смещается на стек решений, совместимых с оборудованием из Реестра Минпромторга и отечественным ПО.

  1. СУБД: Переход на кластерные решения Postgres Pro с использованием Patroni для автоматизации управления кворумом и переключения ролей.

  2. Виртуализация: Внедрение систем управления на базе KVM с интегрированными механизмами High Availability, обеспечивающими мониторинг состояния хостов (Heartbeat) и изоляцию сбойных узлов (Fencing/STONITH).

  3. Хранение данных: Использование горизонтально масштабируемых программно-определяемых хранилищ (SDS), где данные реплицируются между несколькими физическими серверами, обеспечивая выживаемость системы даже при полной потере серверной стойки.

Резюме

Построение систем высокой доступности — это не покупка «надежного железа», а комплексный процесс проектирования, учитывающий физическую среду, сетевую топологию и логику работы приложений. Инвестиции в HA-архитектуру окупаются за счет предотвращения репутационных и финансовых потерь, связанных с внеплановыми остановками бизнес-процессов.

Технический аудит и экспертная оценка: Сергей Коваль

Также вас может заинтересовать