2 марта 2021 г.

В цифровую эпоху катастрофоустойчивость инфраструктуры – ключ к непрерывности работы бизнеса. Внезапные сбои, нештатные ситуации (НШС), кибератаки и многое другое ставят под удар бизнес-процессы и ведут к простоям бизнеса. Время сбоя может стать одной из главных угроз как для вашей компании, так и для ваших клиентов. План аварийного восстановления (DRP) позволяет оценить потенциальные риски для вашей организации, как внутренние, так и внешние и определить наиболее проблемные области. Все это позволяет разработать план противодействия потенциальным инцидентам и реализовать защитные процессы на случай НШС. Английская технологическая компания предложила топ-10 советов по разработке плана аварийного восстановления (DRP). Вместе с экспертом «Онланты», руководителем группы бизнес-процессов, Сергеем Цыкуновым разбираемся, является ли этот план универсальным и подходит ли он российскому бизнесу.

Советы по разработке плана аварийного восстановления от зарубежных коллег

1. Определите риски
Начните разработку плана аварийного восстановления с определения потенциальных рисков вашей ИТ-инфраструктуры. В список возможных угроз должны быть включены отказ оборудования, отключение электропитания, кибератаки и другие нештатные ситуации. 

2. Документируйте все свои ИТ-ресурсы 
При разработке плана аварийного восстановления необходимо произвести «инвентаризацию» всех ваших ИТ-ресурсов. Этот список должен включать все ваше оборудование, данные и приложения. 

3. Расставьте приоритеты
Следующим шагом в разработке плана аварийного восстановления должна стать расстановка приоритетов в том порядке, в котором вам необходимо восстановить работу своих систем в оперативном режиме. 

4. Учтите внешние факторы
В условиях пандемийной реальности все осознали, насколько необходима гибкость. Поэтому важно обеспечить непрерывную и эффективную работу в любом месте, а также плавный и бесшовный переход на новый режим работы без остановки или замедления бизнес-процессов. 

5. Спланируйте приобретение оборудования для замены 
Сбой в работе ИТ-инфраструктуры может быть связан с поломкой оборудования. Включите в план аварийного восстановления выбор надежного подрядчика, который сможет оперативно настроить или заменить вышедшее из строя оборудование.

6. Создайте план резервного копирования данных и приложений 
Важнейшей частью любого плана аварийного восстановления является резервное копирование данных и приложений. При нештатной ситуации вы сможете оперативно восстановить файлы данных, приложения, конфигурации системы и критически важную ИТ-инфраструктуру.

7. Назначьте команду аварийного восстановления 
Чтобы обеспечить оперативное восстановление после инцидента, необходимо назначить ответственную группу при НШС. Каждый член команды должен четко знать свою роль и план действий. 

8. Напишите подробную процедуру аварийного восстановления 
Включите в ваш DRP описание этапов восстановления ИТ-систем. Подробное документирование гарантирует, что работу критически важных систем можно будет восстановить в оперативном режиме.

9. Протестируйте свой DRP 
То, что хорошо выглядит в теории, не всегда эффективно и слаженно работает на практике. Поэтому необходимо регулярно тестировать ваш план аварийного восстановления. 

10. Следите за актуальностью DRP 
С ростом бизнеса должен расти и изменяться и план аварийного восстановления. Поэтому необходимо назначить ответственного сотрудника или группу, которая будет поддерживать ваш DRP в актуальном состоянии. 


А как это у нас?

Описанные зарубежными коллегами советы несомненно полезны бизнесу. Но в их понимании, план аварийного восстановления и есть процесс обеспечения устойчивости бизнеса, что в нашем понимании не совсем корректно.

В нашем случае DRP является неотъемлемой, но только частью комплекса, направленного на построение системы устойчивости бизнеса. Мы предлагаем более широкое видение, в котором каждый из описанных выше советов будет относиться к определенному этапу, а главное, охватывать все бизнес-процессы в компании. Такой комплексный и структурированный подход – залог непрерывности и устойчивости вашего бизнеса. Итак, разложим все по полочкам и распределим предложенные советы по этапам:

1. Оценка воздействия на бизнес (BIA 1 уровень).
В первую очередь необходимо оценить все бизнес-процессы и те ресурсы, от которых зависит их эффективное функционирование. Следующий шаг – определение потенциальных рисков. При этом необходимо оценить угрозы не только непосредственно для вашего ИТ-ландшафта, но и для других бизнес-процессов. Это могут быть негативно влияющие экономические факторы, погодные изменения или другие причины. 

2. BIA 2 уровень. Этот этап включает в себя анализ ИТ-инфраструктуры, организационной структуры, анализ поставщиков, финансовых потоков и юридической устойчивости. Из описанных советов в этот этап также входит документирование ИТ-ресурсов. Крайне важно не оставить без внимания ни один процесс: сбой, казалось бы, некритичного приложения или потеря файла данных может привести к остановке или замедлению работы критически важных сервисов и бизнес-процессов.

3. Формирование стратегии непрерывности: оценка угроз и рисков. Данный этап включает в себя фиксацию целевых показателей, допустимое время восстановления данных (RTO), допустимую потерю данных (RPO) и другие метрики. При этом RTO является целевым значением: восстановление всех процессов должно умещаться в обозначенное время. Из описанных советов к этому этапу также относится расстановка приоритетов: ранжирование должно быть основано на критичности каждого приложения или сервиса для вашего бизнеса. 

4. Разработка плана непрерывности. План непрерывности должен относиться как к обычному режиму работы, так и к режиму «чрезвычайного происшествия». Из описанных советов в этот этап входят: приобретение оборудования для замены, план резервного копирования и формирование команды по аварийному восстановлению. Включите в ваш план непрерывности резервное копировании (BaaS) и послеаварийное восстановление инфраструктуры (DRaaS). Эти решения позволят минимизировать потерю данных при авариях. А при формировании группы реагирования по возможности назначьте запасных членов команды на тот случай, если кого-то из сотрудников не окажется на месте. 

5. Разработка плана аварийного восстановления (DRP). Этот этап включает в себя составление детальной инструкции по восстановлению систем. Недостаточно, например, просто указать «восстановление финансовой системы»: каждый шаг должен быть четко описан. DRP также включает в себя тестирование. Периодическое проведение тестов вашего плана аварийного восстановления гарантирует, что системы будут оперативно восстановлены в короткие сроки, а также позволяет определить сложности, с которыми может столкнуться группа реагировании непосредственно при НШС. Тестирование также предоставит сотрудникам возможность попрактиковаться в выполнении своих задач по аварийному восстановлению. Максимально подробно зафиксируйте, каким сотрудникам приходит уведомление об аварии, и кто принимает решение о запуске плана восстановления. Регулярное тестирование DRP – это непрерывный цикл улучшения вашего плана аварийного восстановления. Актуализация DRP – еще одна важная задача. Ответственная группа по аварийному восстановлению должна уведомлять обо всем новом оборудовании и программном обеспечении, добавленном к вашим ИТ-ресурсам, а также обо всех изменениях в расположении и настройке систем для актуализации DRP. Риски для вашей ИТ-инфраструктуры также необходимо будет регулярно анализировать и документировать.


Документирование ИТ-сред, создание плана резервного копирования, расстановка приоритетов, разработка и тестирование DRP и другие задачи относятся к различным этапам сложного и комплексного процесса – построения системы устойчивости. Четкое выполнение всех описанных задач по этапам позволит компаниям сократить время возврата к работе (RTO), обеспечить сохранность данных и непрерывность работы, что сократит время простоя вашего бизнеса при возникновении нештатных ситуаций.