Как повысить отказоустойчивость ИТ-инфраструктуры
Функционирование IT-инфраструктуры напрямую влияет на бизнес-процессы компании. Конечные сервисы должны быть доступны пользователю независимо от того, что произошло с оборудованием. Поэтому на этапе разработки инфраструктуры учитывают потенциальные сбои — оптимальным считается способность системы переживать критические ситуации с наименьшими потерями или без них.
Показателем надёжности информационной системы предприятия, её способности не терять данные и обеспечивать полноценный доступ к ним при неисправности составляющих или перебоях в подсистемах является отказоустойчивость ИТ-оборудования (High Availability, высокая доступность).
Что такое отказоустойчивость?
Отказоустойчивость подразумевает непрерывную реакцию операционной системы на сбои в работе оборудования и ПО. В результате IT-инфраструктура продолжает функционировать при возникновении проблем на любом из элементов.
Главная задача обеспечения отказоустойчивости — не допустить полного отказа системы и, соответственно, потери данных.
Общая отказоустойчивость ИТ-оборудования охватывает всю информационную систему и отдельные компоненты, к которым относятся модули внутри устройств, прикладное и системное ПО, а также целые площадки для систем с распределённой архитектурой.
Показатели отказоустойчивости ИТ-инфраструктуры:
- коэффициент готовности – время, в течение которого система функционирует без перебоев с момента эксплуатации;
- показатель надёжности – способность системы бесперебойно работать в течение продолжительного времени.
Отказоустойчивость инфраструктуры зависит от надёжности её составляющих и нацелена на устранение точек отказа, что подразумевает создание дублей и избыточность.
Дублирование осуществляется в сфере ПО, аппаратной части и окружения для того, чтобы неисправности отдельных элементов системы не влияли на её работу. Так, сетевые коммутаторы объединяют в стеки, серверы дублируют физически и виртуально, что сохраняет доступ пользователей к информации, электронной почте, системам доменных имён. Особое внимание уделяют созданию резерва систем контроля периметра корпоративной сети.
Основу отказоустойчивости составляет избыточность — наличие запасных компонентов для всех элементов системы.
Например, при сбое центров информации из-за отключения электричества происходит автоматическое переключение на аккумуляторные источники бесперебойного питания — генераторы, работающие на дизельном топливе. Такие средства обеспечения отказоустойчивости удерживают систему в рабочем состоянии до возобновления энергопитания.
Для систем важна устойчивость не только к неполадкам в работе программ и оборудования, но и к стихийным бедствиям и серьезным авариям: ураганам, пожарам, отключению электричества и другим. Работу системы после форс-мажорных ситуаций поддерживает катастрофоустойчивость (Disaster Recovery). Это способность системы сохранять данные и продолжать выполнять задачи, которые были запущены до выхода из строя всего центра обработки данных.
Практически во всех направлениях деятельности отказоустойчивость является обязательной спецификацией. Её используют в транспортной логистике и дистрибьюторстве, системах управления промышленными предприятиями, розничной и оптовой торговле, на производственных предприятиях и станциях по выработке электроэнергии. Например, при авиаперевозках обеспечение отказоустойчивости необходимо системам управления полётами и обработки переводов платежей при бронировании билетов.
Методы обеспечения отказоустойчивости
Методы обеспечения отказоустойчивости затрагивают разные слои информационной системы: аппаратную часть, приложения и сайты, которые нуждаются в защите и другие.
Выделяют два метода формирования отказоустойчивости информационных систем:
- бесперебойное функционирование – при неисправности система сохраняет производительность и работает в обычном режиме;
- плавный спад производительности – серьёзность сбоя в функционировании системы зависит от значимости неполадки. Если она несущественная, то производительность останется такой же, какой была до этого.
Резервирование ресурсов
До появления облачных приложений методы аппаратного резервирования широко применялись в компьютерных сетях. И сегодня они обеспечивают желаемый уровень отказоустойчивости IT-инфраструктуры. Для максимальной эффективности их используют с другими решениями:
- дублирование отдельных хранилищ по технологии виртуализации информации «RAID» (Redundant Array of Independent Disks, массив независимых дисков с избыточностью) – исключает риски утраты данных;
- исправление ошибок информационной системы – исключает риски повреждения файлов;
- подключение сразу нескольких источников питания – исключает риски выключения серверов при неисправности одного из них;
- дублирование сети, по которой происходит подключения контроллеров – исключает риски отключения сервера от сети.
Обязательным условием цельности процессов является дополнительная платформа для размещения серверов, которая позволит развернуть IT-инфраструктуру в случае сбоя. Для этого используют такие виды резерва, как:
- «Холодный» — требует серверной и комплекта запасного оборудования, которое, как правило, хранится на складе. Сложность заключается в недоступности оперативного запуска, что приведёт к простою предприятия. Способ самый дешёвый, но восстановление потребует времени — иногда до одного месяца.
- «Тёплый» — требует запасной платформы с базовой вычислительной IT-инфраструктурой и корректно настроенными сетями. Наличие уже подключенной основной аппаратной составляющей позволит оперативно перенаправить нагрузки. Этот подход уступает основной площадке по производительности, но даёт возможность запустить работу информационной системы в течение 24-х часов. Такой вид резерва востребован из-за ценовой доступности и минимального времени запуска системы.
- «Горячий» – считается самым эффективным из-за наличия полноценной резервной платформы вычислительной мощности и производительности не ниже основной. Информация системы беспрерывно реплицируется и копируется, поэтому в запасном центре имеются её актуальные копии. Платформа располагает всем необходимым и может использоваться мгновенно. Этот вариант самый дорогой, поскольку требует оплаты сразу двух платформ. Подходит компаниям, простой которых очень дорого обходится.
Избыточность программного обеспечения
По мере развития IT-инфраструктур усовершенствованию подверглась избыточность программного обеспечения. Её начали принимать во внимание при разработке приложений и таким образом исключили отказы при поломках аппаратной части или ошибках конфигурации. Для достижения наилучшего результата в обеспечении избыточности используют:
- масштабирование систем;
- системы, способные самовосстанавливаться;
- технологии разделения на кластеры;
- поддержку функционирования систем и сервисов;
- контроль параметров функционирования программ.
Новый виток повышения отказоустойчивости инфраструктуры связан с совершенствованием и распространением облачных технологий.
Разработана концепция избыточности окружения, которая отличается чрезмерностью оборудования в стойке. Её используют для равномерного распределения нагрузки и минимизации рисков появления точек отказа.
Оба способа — резерв и избыточность, устраняют точки отказа, за счёт чего поставщики услуг гарантируют заказчикам доступность системы и всех её сервисов. При заключении договора SLA отказоустойчивости системы фиксируют в процентах, прописывая время доступности и определённую длительность простоя в год. К примеру, если зафиксированная цифра – 99,99%, то это значит, что за год простой не может быть дольше 52,6 минут.
Высокие показатели отказоустойчивости программного обеспечения и других составляющих ИТ-инфраструктуры достигаются за счёт детального планирования. Разработчики учитывают все факторы, поскольку только так можно добиться желаемого показателя. В процессе разрабатывают сценарии сбоев и просчитывают последствия разрушительных событий наряду с тем, как будет функционировать система при форс-мажорах.
Что влияет на функционирование IT-системы?
Главный фактор, от которого зависит нормальное функционирование ИТ-инфраструктуры – отсутствие/наличие единой точки отказа. Она является узлом, неисправность которого приводит ко сбоям в работе всей системы. Современные сервисы и приложения становятся всё сложнее и включают в себя всё больше элементов. Последние же являются потенциальными узлами, в которых может произойти сбой.
Располагаться узлы могут на разных уровнях архитектуры. Каждая составляющая IT-инфраструктуры является потенциальной точкой сбоя, начиная с СХД и заканчивая источником питания. Другие точки отказа, которые следует учесть при формировании отказоустойчивой инфраструктуры, заключаются в:
- поломке оборудования;
- влиянии человеческого фактора;
- стихийном бедствии;
- сбое в работе операционной системы;
- поломке канала, по которому идёт интернет-соединение;
- отключении энергопитания или скачке напряжения;
- несанкционированном доступе третьих лиц;
- кибератаке или вирусе.
Согласно исследованиям, проведённым в 2021-м году институтом
Чем достигается отказоустойчивость?
Желаемый уровень работоустойчивости инфраструктуры зависит от надёжности её элементов. Для этого их дублируют, а также задействуют целый комплекс других мероприятий.
Унификация рабочих станций и виртуализация информационных баз
Создание виртуальных баз данных – оптимальное решение, если нужно обеспечить отказоустойчивость компьютерных систем сотрудников. Для этого рабочие места унифицируют, включая специально настроенные ОС и предустановленное программное обеспечение. Если компьютер ломается, то его заменяют другим. Работник вводит логин и пароль, получает доступ к информации, которая хранится в виртуальной базе, и продолжает работу.
Создание резервных копий
При постоянном копировании файлов и почтовых архивов важная информация не теряется и практически моментально восстанавливаются результаты проделанной сотрудниками работы. Достичь должного уровня валидации позволяет регулярная проверка бэкапов в ручном режиме и настройка проверки в автоматическом режиме. Перед внесением изменений в ОС и конфигурации нужно проводить бэкапы, чтобы в случае ошибок оперативно вернуть всё назад.
Нужно различать репликацию и резервное копирование. Репликация – это синхронизация на основном и запасном серверах. Если изменения вызвали сбои на основном сервере, то из-за синхронизации они перейдут и на запасной. Резервная копия – это последняя копия рабочей конфигурации, к которой можно вернуться и снова использовать. Хранение запасных копий происходит на удалении от оригиналов, чтобы не допустить форс-мажоров в работе основной IT-инфраструктуры.
Обеспечение безопасности
Для безопасности ограничивают доступ к администраторским учётным записям, серверам и сетевому оборудованию, а также помещениям, в которых они размещены. Его доверяют лишь ответственным за работу подсистем и IT-инфраструктуры. Наряду с системами видеонаблюдения и охраны такая мера исключает саботирование и вывод из строя аппаратной части непосредственно на предприятии.
Средства защиты IT-системы
Средства защиты информационной системы компании вносят свой вклад в обеспечение её отказоустойчивости. Для этого используют:
- Системы обнаружения вторжений – проверяют, насколько трафик соответствует заданным шаблонам и, исходя из этого, запрещают его или пропускают внутрь корпоративной сети. Они способны вычислять любые аномалии в функционировании сети и таким образом исключать сетевые атаки.
- Антивирусные программы – исключают загрузки вредоносных кодов в нормативную сеть разными способами. Например, запрещают чтение, копирование или перенос информации на USB-накопители через компьютеры пользователей. Они анализируют поведение программ и сканируют файлы на наличие вирусов при помощи обновляемых баз данных со сведениями обо всех действующих угрозах.
- Межсетевые экраны – разрешают или запрещают трафик в направлениях внутри сети и между корпоративной сетью и Интернетом, руководствуясь листами доступа. Они исключают доступ сотрудников предприятия к облачным хранилищам вроде Mail.Ru для того, чтобы избежать утечку конфиденциальных данных или скачивание вредоносного ПО. Межсетевые экраны устанавливают как по периметру сети, так и между её разными элементами.
Регламенты и контролирование
Независимо от уровня надёжности технической составляющей информационной системы компании, требуется регламент непрерывного мониторинга и действий в случае выявления проблемы. Согласно статистическим данным института
Специалисты, которые отвечают за администрирование и работу информационной системы компании, должны знать, что нужно делать в случае форс-мажора. Так они оперативно приступят к действиям и не потеряют время, продлив бизнес-процессы компании. Регламенты должны существовать не только на бумаге — нужна регулярная практика.
Итоги
Практически любое современное предприятие зависит от непрерывности функционирования своей информационной инфраструктуры, что делает требования к их отказоустойчивости более жёсткими. Её высокий уровень достигается за счёт комплексного подхода путём резервирования составляющих, дублирования данных, непрерывного контроля и соблюдения регламентов безопасности. Эффективные решения – резервные ЦОД, которые можно использовать в случае форс-мажорных обстоятельств.
Многие предприятия заказывают услуги по обеспечению желаемого уровня отказоустойчивости в специализированных компаниях по аутсорсингу. Например, «Онланта» предлагает комплексный сервис «под ключ», который позволяет исключить остановку бизнес-процессов компании в случае сбоев любых элементов информационной сети.