Каталог товаров
0
Корзина
Пустая корзина

В корзине пока ничего нет

Вы можете начать свой выбор с нашего каталога товаров или воспользоваться поиском, если ищете что-то конкретное.

Выбрать товары
Итоговая стоимость
+
Отложенные
Пустая корзина

В корзине пока ничего нет

Вы можете начать свой выбор с нашего каталога товаров или воспользоваться поиском, если ищете что-то конкретное.

Выбрать товары
Итого

Высокая доступность серверов и серверной инфраструктуры

Опубликовано: 24 февраля 2024 Изменено: 12 мая 2026
Высокая доступность серверов и серверной инфраструктуры
Инженерный разбор высокой доступности серверной инфраструктуры: чем HA отличается от простой надежности оборудования, как считать RTO/RPO и SLA, когда использовать Active-Passive, Active-Active и N+1, как устранять SPOF на уровне питания, сети, хранения, виртуализации и failover-кластеров.
Блог · Серверы · Высокая доступность

Высокая доступность серверов — это не одна функция и не покупка «самого надежного» оборудования. Это архитектура, в которой отказ отдельного узла, диска, блока питания, сетевого канала или площадки не должен останавливать критичные сервисы компании.

Для бизнеса важны не только производительность и цена серверов, но и то, как быстро сервис восстановится после сбоя, сколько данных допустимо потерять, где находятся резервные копии, как переключается нагрузка и кто отвечает за мониторинг инфраструктуры.

Конфигуратор серверов Серверы в каталоге Услуги ANDPRO

Что разобрано в статье

Что означает высокая доступность серверов

Высокая доступность, или High Availability, — это способность инфраструктуры продолжать работу при отказе отдельных компонентов. В зависимости от задачи это может быть отказ диска, блока питания, сетевого порта, сервера, гипервизора, СХД, канала связи или целой площадки.

Важно не смешивать HA с резервным копированием. Backup помогает восстановить данные после сбоя, удаления, шифрования или ошибки администратора, но сам по себе не гарантирует непрерывную работу сервиса. HA снижает время простоя за счет резервных узлов, кластеров, репликации, балансировки и автоматического или ручного переключения.

Отказоустойчивость также не означает, что сбоев не будет. Она означает, что архитектура заранее учитывает возможные отказы и дает понятный сценарий продолжения работы или восстановления. Чем критичнее сервис, тем точнее должны быть определены метрики доступности, ответственность и порядок действий.

Практический принцип: высокая доступность начинается не с покупки второго сервера, а с ответа на вопросы: какой сервис защищаем, сколько простоя допустимо, сколько данных можно потерять и как будет проверяться восстановление.

RTO, RPO и SLA: метрики до выбора оборудования

Перед проектированием HA нужно определить целевые показатели. RTO показывает, за какое время сервис должен быть восстановлен после сбоя. RPO показывает, какой объем данных допустимо потерять, обычно в пересчете на время: например, несколько минут, час или сутки.

SLA описывает ожидаемый уровень доступности сервиса. Чем выше требование к доступности, тем дороже и сложнее архитектура: нужны резервные узлы, отказоустойчивое хранение, несколько сетевых путей, мониторинг, проверенный backup, регламенты, тестирование failover и обученная команда.

Если метрики не определены, инфраструктуру легко спроектировать неправильно: либо переплатить за избыточную отказоустойчивость, либо сэкономить на компонентах, из-за которых простой окажется дороже оборудования.

RTO

Допустимое время восстановления сервиса после сбоя. Влияет на кластеризацию, автоматическое переключение и регламент реакции.

RPO

Допустимый объем потери данных. Влияет на частоту backup, репликацию, тип СХД и требования к журналированию.

SLA

Целевой уровень доступности. Чем выше SLA, тем больше требований к резервированию, мониторингу и эксплуатации.

Архитектуры высокой доступности

Самая простая схема — Active-Passive. Основной узел обслуживает нагрузку, а резервный готов принять ее при отказе. Такой подход часто используют для корпоративных приложений, файловых сервисов, баз данных и инфраструктурных ролей, где допустимо переключение за минуты.

Active-Active архитектура распределяет нагрузку между несколькими узлами одновременно. Она может давать более высокую доступность и лучше использовать ресурсы, но требует более сложной логики синхронизации, балансировки, мониторинга и тестирования. Такой подход актуален для веб-сервисов, некоторых приложений, кластеров и распределенных систем.

Для инфраструктуры с критичными данными важно отдельно проектировать хранение. СХД, репликация, распределенное хранение, синхронная или асинхронная репликация, резервные копии и snapshot-механизмы решают разные задачи. Их нельзя заменять друг другом без понимания RTO, RPO и сценария восстановления.

Active-Passive Резервный узел принимает нагрузку при сбое основного. Схема проще, но часть ресурсов может простаивать.
Active-Active Нагрузка распределяется между несколькими узлами. Требует более сложного управления и проверки приложений.
Репликация и backup Репликация снижает RPO, backup защищает от удаления, повреждения данных и сценариев, где репликация не помогает.

Аппаратное резервирование: где чаще всего возникают узкие места

Высокая доступность начинается с устранения одиночных точек отказа. На уровне сервера это резервные блоки питания, hot-swap накопители, RAID или отказоустойчивая схема хранения, ECC-память, мониторинг состояния дисков, вентиляторов, БП и температур.

На уровне сети важно предусмотреть несколько сетевых интерфейсов, разные коммутаторы, корректную агрегацию каналов, отдельные VLAN, резервирование management-доступа и понятную схему подключения к СХД, backup и пользовательскому трафику.

На уровне хранения данных критичны контроллеры, дисковые полки, кэш, battery/flash backup, мультипасинг, репликация, snapshot-политики, совместимость с гипервизором и приложениями. Даже два мощных сервера не обеспечат HA, если вся инфраструктура зависит от одного коммутатора, одной СХД или одного ИБП.

СХД, backup и восстановление после сбоя

Системы хранения данных играют ключевую роль в HA-архитектуре. Для виртуализации, баз данных, файловых сервисов и критичных приложений нужно понимать, где находятся данные, как они защищены, как реплицируются и что произойдет при отказе узла, контроллера, диска, полки или площадки.

Важно разделять отказоустойчивое хранение и резервное копирование. Репликация может быстро перенести ошибку, удаление или шифрование на вторую площадку. Backup нужен как независимый уровень защиты, который позволяет вернуться к корректной точке восстановления.

Для критичных систем нужно проверять не только создание копий, но и фактическое восстановление: время, целостность, права доступа, зависимые сервисы, порядок запуска и ответственность команды. Без теста восстановления RTO и RPO остаются теоретическими.

Правильная HA-архитектура сочетает резервирование, репликацию, backup и тестовое восстановление. Ни один из этих уровней не заменяет остальные полностью.

Эксплуатация: мониторинг, тесты failover и регламенты

Даже хорошо спроектированная HA-инфраструктура может не сработать, если ее не обслуживать. Нужны мониторинг состояния серверов, СХД, сети, ИБП, температур, дисков, репликации, backup-задач, журналов, кластерных ролей и приложений.

Failover нужно тестировать в контролируемых условиях. Это помогает понять, сколько времени занимает переключение, какие сервисы требуют ручного вмешательства, какие зависимости не учтены и как команда действует по регламенту. Без тестирования отказоустойчивость часто остается только схемой на бумаге.

Отдельно нужно описать порядок обновлений: когда можно обновлять узлы, как проверяется совместимость прошивок, драйверов, гипервизора и приложений, кто подтверждает окно обслуживания, как выполняется откат и где фиксируются изменения.

Типичные ошибки при проектировании высокой доступности

Первая ошибка — считать, что два сервера автоматически дают отказоустойчивость. Если они подключены к одному коммутатору, одному ИБП, одной СХД или используют один путь к данным, в архитектуре остаются одиночные точки отказа.

Вторая ошибка — забывать про приложения. Не все сервисы корректно работают в Active-Active или быстро восстанавливаются после переключения. Иногда приложение требует отдельной логики кластеризации, лицензирования, синхронизации данных или ручного запуска.

Третья ошибка — не проверять восстановление. На практике важно знать не только, что backup создан, но и что данные можно восстановить в нужное время, в нужной последовательности и с сохранением работоспособности зависимых сервисов.

Как перейти от требований HA к подбору инфраструктуры

Для предварительной оценки серверной платформы можно использовать конфигуратор серверов. Если нужно посмотреть товарные направления, начните с каталога, раздела серверное оборудование и подраздела серверы. Для инфраструктуры высокой доступности также важны хранилища данных и СХД.

Если нужно спроектировать отказоустойчивость комплексно — серверы, СХД, сеть, backup, питание, мониторинг, миграцию и эксплуатацию — лучше обсуждать задачу с инженерами. В этом случае можно посмотреть услуги ANDPRO, раздел сотрудники или отправить запрос через контакты.

Частые вопросы

Чем высокая доступность отличается от резервного копирования?

Высокая доступность снижает время простоя сервиса при отказе компонентов. Резервное копирование помогает восстановить данные после удаления, повреждения, шифрования или ошибки. Для критичных систем обычно нужны оба уровня защиты.

Достаточно ли двух серверов для отказоустойчивости?

Не всегда. Два сервера помогают только при правильно спроектированной сети, хранении данных, питании, backup, мониторинге и сценарии переключения. Если остается одна СХД, один коммутатор или один ИБП, в архитектуре сохраняется одиночная точка отказа.

Что важнее: RTO или RPO?

Обе метрики важны. RTO показывает, за какое время сервис должен вернуться в работу, а RPO — сколько данных допустимо потерять. Они влияют на выбор кластеризации, репликации, backup, СХД и регламентов восстановления.

Нужно ли тестировать failover?

Да. Без тестирования невозможно подтвердить фактическое время переключения, порядок запуска сервисов, корректность backup, работу зависимостей и готовность команды к инциденту.

Куда обратиться за проектированием отказоустойчивой инфраструктуры?

Можно начать с конфигуратора серверов, посмотреть раздел серверов, хранилищ данных и СХД в каталоге или отправить задачу специалистам ANDPRO через контакты. Для комплексных проектов доступны услуги по подбору, модернизации и сопровождению инфраструктуры.

Авторство и ответственность

Автор материала Александр Зубеев — генеральный директор ANDPRO. Материал подготовлен с учетом задач проектирования серверной инфраструктуры, отказоустойчивости, резервирования и эксплуатации корпоративных ИТ-систем.
Технический рецензент Михаил Биркос — главный технический специалист ANDPRO. Проверка выполнена по технической логике серверных платформ, СХД, backup, резервирования, совместимости и эксплуатации.
Ответственная организация Материал опубликован в базе знаний ANDPRO. За сайт отвечает ООО «АНД-Системс». Подробнее: реквизиты, сотрудники, редакционная политика.

Статья носит информационный характер и помогает подготовиться к проектированию высокой доступности. Итоговая архитектура, совместимость оборудования, наличие, гарантия, документы, сроки и применимость решений уточняются по конкретному проекту перед оплатой.

Также вас может заинтересовать