23.01.2024

Как повысить отказоустойчивость ИТ-инфраструктуры

Функционирование IT-инфраструктуры напрямую влияет на бизнес-процессы компании. Конечные сервисы должны быть доступны пользователю независимо от того, что произошло с оборудованием. Поэтому на этапе разработки инфраструктуры учитывают потенциальные сбои — оптимальным считается способность системы переживать критические ситуации с наименьшими потерями или без них.

Показателем надёжности информационной системы предприятия, её способности не терять данные и обеспечивать полноценный доступ к ним при неисправности составляющих или перебоях в подсистемах является отказоустойчивость ИТ-оборудования (High Availability, высокая доступность).

Что такое отказоустойчивость?

Отказоустойчивость подразумевает непрерывную реакцию операционной системы на сбои в работе оборудования и ПО. В результате IT-инфраструктура продолжает функционировать при возникновении проблем на любом из элементов.

Главная задача обеспечения отказоустойчивости — не допустить полного отказа системы и, соответственно, потери данных.

Общая отказоустойчивость ИТ-оборудования охватывает всю информационную систему и отдельные компоненты, к которым относятся модули внутри устройств, прикладное и системное ПО, а также целые площадки для систем с распределённой архитектурой.

Показатели отказоустойчивости ИТ-инфраструктуры:

коэффициент готовности – время, в течение которого система функционирует без перебоев с момента эксплуатации;
показатель надёжности – способность системы бесперебойно работать в течение продолжительного времени.

Отказоустойчивость инфраструктуры зависит от надёжности её составляющих и нацелена на устранение точек отказа, что подразумевает создание дублей и избыточность.

Дублирование осуществляется в сфере ПО, аппаратной части и окружения для того, чтобы неисправности отдельных элементов системы не влияли на её работу. Так, сетевые коммутаторы объединяют в стеки, серверы дублируют физически и виртуально, что сохраняет доступ пользователей к информации, электронной почте, системам доменных имён. Особое внимание уделяют созданию резерва систем контроля периметра корпоративной сети.

Основу отказоустойчивости составляет избыточность — наличие запасных компонентов для всех элементов системы.

Например, при сбое центров информации из-за отключения электричества происходит автоматическое переключение на аккумуляторные источники бесперебойного питания — генераторы, работающие на дизельном топливе. Такие средства обеспечения отказоустойчивости удерживают систему в рабочем состоянии до возобновления энергопитания.

Для систем важна устойчивость не только к неполадкам в работе программ и оборудования, но и к стихийным бедствиям и серьезным авариям: ураганам, пожарам, отключению электричества и другим. Работу системы после форс-мажорных ситуаций поддерживает катастрофоустойчивость (Disaster Recovery). Это способность системы сохранять данные и продолжать выполнять задачи, которые были запущены до выхода из строя всего центра обработки данных.

Практически во всех направлениях деятельности отказоустойчивость является обязательной спецификацией. Её используют в транспортной логистике и дистрибьюторстве, системах управления промышленными предприятиями, розничной и оптовой торговле, на производственных предприятиях и станциях по выработке электроэнергии. Например, при авиаперевозках обеспечение отказоустойчивости необходимо системам управления полётами и обработки переводов платежей при бронировании билетов.

Методы обеспечения отказоустойчивости

Методы обеспечения отказоустойчивости затрагивают разные слои информационной системы: аппаратную часть, приложения и сайты, которые нуждаются в защите и другие.

Выделяют два метода формирования отказоустойчивости информационных систем:

бесперебойное функционирование – при неисправности система сохраняет производительность и работает в обычном режиме;
плавный спад производительности – серьёзность сбоя в функционировании системы зависит от значимости неполадки. Если она несущественная, то производительность останется такой же, какой была до этого.

Резервирование ресурсов

До появления облачных приложений методы аппаратного резервирования широко применялись в компьютерных сетях. И сегодня они обеспечивают желаемый уровень отказоустойчивости IT-инфраструктуры. Для максимальной эффективности их используют с другими решениями:

дублирование отдельных хранилищ по технологии виртуализации информации «RAID» (Redundant Array of Independent Disks, массив независимых дисков с избыточностью) – исключает риски утраты данных;
исправление ошибок информационной системы – исключает риски повреждения файлов;
подключение сразу нескольких источников питания – исключает риски выключения серверов при неисправности одного из них;
дублирование сети, по которой происходит подключения контроллеров – исключает риски отключения сервера от сети.

Обязательным условием цельности процессов является дополнительная платформа для размещения серверов, которая позволит развернуть IT-инфраструктуру в случае сбоя. Для этого используют такие виды резерва, как:

«Холодный» — требует серверной и комплекта запасного оборудования, которое, как правило, хранится на складе. Сложность заключается в недоступности оперативного запуска, что приведёт к простою предприятия. Способ самый дешёвый, но восстановление потребует времени — иногда до одного месяца.

«Тёплый» — требует запасной платформы с базовой вычислительной IT-инфраструктурой и корректно настроенными сетями. Наличие уже подключенной основной аппаратной составляющей позволит оперативно перенаправить нагрузки. Этот подход уступает основной площадке по производительности, но даёт возможность запустить работу информационной системы в течение 24-х часов. Такой вид резерва востребован из-за ценовой доступности и минимального времени запуска системы.

«Горячий» – считается самым эффективным из-за наличия полноценной резервной платформы вычислительной мощности и производительности не ниже основной. Информация системы беспрерывно реплицируется и копируется, поэтому в запасном центре имеются её актуальные копии. Платформа располагает всем необходимым и может использоваться мгновенно. Этот вариант самый дорогой, поскольку требует оплаты сразу двух платформ. Подходит компаниям, простой которых очень дорого обходится.

Избыточность программного обеспечения

По мере развития IT-инфраструктур усовершенствованию подверглась избыточность программного обеспечения. Её начали принимать во внимание при разработке приложений и таким образом исключили отказы при поломках аппаратной части или ошибках конфигурации. Для достижения наилучшего результата в обеспечении избыточности используют:

масштабирование систем;
системы, способные самовосстанавливаться;
технологии разделения на кластеры;
поддержку функционирования систем и сервисов;
контроль параметров функционирования программ.

Новый виток повышения отказоустойчивости инфраструктуры связан с совершенствованием и распространением облачных технологий.

Разработана концепция избыточности окружения, которая отличается чрезмерностью оборудования в стойке. Её используют для равномерного распределения нагрузки и минимизации рисков появления точек отказа.

Оба способа — резерв и избыточность, устраняют точки отказа, за счёт чего поставщики услуг гарантируют заказчикам доступность системы и всех её сервисов. При заключении договора SLA отказоустойчивости системы фиксируют в процентах, прописывая время доступности и определённую длительность простоя в год. К примеру, если зафиксированная цифра – 99,99%, то это значит, что за год простой не может быть дольше 52,6 минут.

Высокие показатели отказоустойчивости программного обеспечения и других составляющих ИТ-инфраструктуры достигаются за счёт детального планирования. Разработчики учитывают все факторы, поскольку только так можно добиться желаемого показателя. В процессе разрабатывают сценарии сбоев и просчитывают последствия разрушительных событий наряду с тем, как будет функционировать система при форс-мажорах.

Что влияет на функционирование IT-системы?

Главный фактор, от которого зависит нормальное функционирование ИТ-инфраструктуры – отсутствие/наличие единой точки отказа. Она является узлом, неисправность которого приводит ко сбоям в работе всей системы. Современные сервисы и приложения становятся всё сложнее и включают в себя всё больше элементов. Последние же являются потенциальными узлами, в которых может произойти сбой.

Располагаться узлы могут на разных уровнях архитектуры. Каждая составляющая IT-инфраструктуры является потенциальной точкой сбоя, начиная с СХД и заканчивая источником питания. Другие точки отказа, которые следует учесть при формировании отказоустойчивой инфраструктуры, заключаются в:

поломке оборудования;
влиянии человеческого фактора;
стихийном бедствии;
сбое в работе операционной системы;
поломке канала, по которому идёт интернет-соединение;
отключении энергопитания или скачке напряжения;
несанкционированном доступе третьих лиц;
кибератаке или вирусе.

Согласно исследованиям, проведённым в 2021-м году институтом Uptime Institute, самая распространённая точка отказа — отключение электричества.

Чем достигается отказоустойчивость?

Желаемый уровень работоустойчивости инфраструктуры зависит от надёжности её элементов. Для этого их дублируют, а также задействуют целый комплекс других мероприятий.

Унификация рабочих станций и виртуализация информационных баз

Создание виртуальных баз данных – оптимальное решение, если нужно обеспечить отказоустойчивость компьютерных систем сотрудников. Для этого рабочие места унифицируют, включая специально настроенные ОС и предустановленное программное обеспечение. Если компьютер ломается, то его заменяют другим. Работник вводит логин и пароль, получает доступ к информации, которая хранится в виртуальной базе, и продолжает работу.

Создание резервных копий

При постоянном копировании файлов и почтовых архивов важная информация не теряется и практически моментально восстанавливаются результаты проделанной сотрудниками работы. Достичь должного уровня валидации позволяет регулярная проверка бэкапов в ручном режиме и настройка проверки в автоматическом режиме. Перед внесением изменений в ОС и конфигурации нужно проводить бэкапы, чтобы в случае ошибок оперативно вернуть всё назад.

Нужно различать репликацию и резервное копирование. Репликация – это синхронизация на основном и запасном серверах. Если изменения вызвали сбои на основном сервере, то из-за синхронизации они перейдут и на запасной. Резервная копия – это последняя копия рабочей конфигурации, к которой можно вернуться и снова использовать. Хранение запасных копий происходит на удалении от оригиналов, чтобы не допустить форс-мажоров в работе основной IT-инфраструктуры.

Обеспечение безопасности

Для безопасности ограничивают доступ к администраторским учётным записям, серверам и сетевому оборудованию, а также помещениям, в которых они размещены. Его доверяют лишь ответственным за работу подсистем и IT-инфраструктуры. Наряду с системами видеонаблюдения и охраны такая мера исключает саботирование и вывод из строя аппаратной части непосредственно на предприятии.

Средства защиты IT-системы

Средства защиты информационной системы компании вносят свой вклад в обеспечение её отказоустойчивости. Для этого используют:

Системы обнаружения вторжений – проверяют, насколько трафик соответствует заданным шаблонам и, исходя из этого, запрещают его или пропускают внутрь корпоративной сети. Они способны вычислять любые аномалии в функционировании сети и таким образом исключать сетевые атаки.
Антивирусные программы – исключают загрузки вредоносных кодов в нормативную сеть разными способами. Например, запрещают чтение, копирование или перенос информации на USB-накопители через компьютеры пользователей. Они анализируют поведение программ и сканируют файлы на наличие вирусов при помощи обновляемых баз данных со сведениями обо всех действующих угрозах.
Межсетевые экраны – разрешают или запрещают трафик в направлениях внутри сети и между корпоративной сетью и Интернетом, руководствуясь листами доступа. Они исключают доступ сотрудников предприятия к облачным хранилищам вроде Mail.Ru для того, чтобы избежать утечку конфиденциальных данных или скачивание вредоносного ПО. Межсетевые экраны устанавливают как по периметру сети, так и между её разными элементами.

Регламенты и контролирование

Независимо от уровня надёжности технической составляющей информационной системы компании, требуется регламент непрерывного мониторинга и действий в случае выявления проблемы. Согласно статистическим данным института Uptime Institute, почти в 80% случаев сбои в функционировании центров обработки данных возникали из-за влияния человеческого фактора.

Специалисты, которые отвечают за администрирование и работу информационной системы компании, должны знать, что нужно делать в случае форс-мажора. Так они оперативно приступят к действиям и не потеряют время, продлив бизнес-процессы компании. Регламенты должны существовать не только на бумаге — нужна регулярная практика.

Итоги

Практически любое современное предприятие зависит от непрерывности функционирования своей информационной инфраструктуры, что делает требования к их отказоустойчивости более жёсткими. Её высокий уровень достигается за счёт комплексного подхода путём резервирования составляющих, дублирования данных, непрерывного контроля и соблюдения регламентов безопасности. Эффективные решения – резервные ЦОД, которые можно использовать в случае форс-мажорных обстоятельств.

Многие предприятия заказывают услуги по обеспечению желаемого уровня отказоустойчивости в специализированных компаниях по аутсорсингу. Например, «Онланта» предлагает комплексный сервис «под ключ», который позволяет исключить остановку бизнес-процессов компании в случае сбоев любых элементов информационной сети.

Была ли полезна статья?

Расскажите друзьям: