План аварийного восстановления (DRP)

В современном мире информационные технологии имеют очень важное значение для бизнеса. На данный момент сложно представить практически любую сферу бизнеса не обеспеченную информационной системой. Соответственно с каждым годом все большую роль играет надежность информационной системы.

Высокая стоимость простоев и строгие требования ко времени восстановления вынуждают компании планировать послеаварийное восстановление для обеспечения непрерывности бизнеса, которое затрагивает различные аспекты законодательных, хозяйственных, договорных и иных отношений организации с контролирующими органами, персоналом, а также многие другие направления.

Катастрофа может привести к нарушению нормального функционирования бизнеса. Ведь если критический или жизненно важный бизнес-процесс не будет обеспечен системой, то это повлечет огромные затраты. А если компания небольшая, и она не имеет необходимых активов для преодоления проблемы, то возможно и прекращение деятельности фирмы. Другими словами без тщательного планирования, большинству организаций не выжить серьезных перебоев в функционировании своего бизнеса, вызванных отказом информационной системы.

Подготовить компанию к преодолению кризиса непросто, но тщательное планирование одновременно с решительными действиями поможет превратить потенциальный крах во временные неполадки.

Компания Gartner Group сообщает, что 40% предприятий, переживающих катастрофу, перестают функционировать в течение пяти лет после ее начала. Если есть желание остаться среди тех 60%, которые смогли выжить, стоит внедрить план DRP до начала катаклизмов, и следовать ему, если бедствие все же разразится.

В России владельцы и первые лица российских компаний пока не осознали всю полноту риска, который может наступить в организации вследствие прерывания тех или иных бизнес-процессов. Тогда как на Западе обеспечение непрерывности бизнеса в банках, телекоммуникационных компаниях, медиа-компаниях, на непрерывных производствах — задача отдельного подразделения, которое курирует менеджер высшего звена, например, в ранге вице-президента. Одними из ключевых объектов, которые затрагивают теория и практика непрерывности управления, являются ИТ-системы.

К области обеспечения непрерывности деятельности относится несколько документов:

Первый из них — план управления в кризисной ситуации (Incident Management Plan, IMP), который задействуется в первые минуты после наступления чрезвычайной ситуации (куда бежать, кому звонить, где собираться и т.п.). Главная задача документа — в первую очередь сохранение жизни и здоровья людей, а затем и имущества организации.
Второй документ — план непрерывности бизнеса (Business Continuity Plan, BCP). В нем описываются пути продолжения функционирования организации в кризисных условиях, например, использование альтернативных площадей, обходных технологий, ручное выполнение операций и т. д. Главная задача — обеспечить выполнение обязательств организации перед клиентами и контрагентами, продолжить предоставление услуг и выпуск товаров.
Одной из составляющих задачи BCP является обеспечение непрерывности функционирования информационных и телекоммуникационных систем. Поскольку эти системы сегодня играют важнейшую роль в жизни большинства организаций, проблеме обеспечения непрерывности их работы посвящен отдельный, третий документ — план аварийного восстановления ИТ-систем (Disaster Recovery Plan, DRP).

Что бы обезопасить свой бизнес от проблем, связанных с отказом информационной системы фирмы, руководитель или другое ответственное лицо должны разработать и внедрить План Аварийного Восстановления (Disaster Recovery Planing сокр. DRP).
План аварийного восстановления на самом деле не является чем-то новым в нашей жизни. Он основан на действия, которые вы выполняем на ежедневной основе. Ведь именно от этих действий зависит обеспечение непрерывности бизнеса. Рассматривая эти действия, мы должны выработать меры, которые обеспечат непрерывность бизнеса.

Эти меры можно разделить на три основных класса:

смягчение последствий катастрофы — действие в результате которого мы уменьшаем количество затрат на восстановление;
предотвращения катастрофы — действие, направленное на избежание катастрофы;
переноса ответственности за катастрофу — смещение риска неконтролируемого события на третью сторону (например – страхование рисков).

Распространенное заблуждение в том, что DRP это универсальное руководство как действовать в случае землетрясения или наводнения. Это не цель DRP. Окончательный план аварийного восстановления будет состоять из серии небольших планов для решения конкретных вопросов (таких, как потеря охлаждения в дата-центре из за отключения энергии, или разрыв линий связи из за экскаватора, перерубившего кабель). Кроме того мы не собираемся писать руководство по ремонту системы охлаждения серверной или протягивать новые линии связи. План должен объяснить, что нужно проверить перед вызовом техника и действия, которые вы могли бы принять в раскаленном помещении, пока мы ждем специалиста по ремонту системы охлаждения.
Катастрофы происходят гораздо чаще, чем люди понимают. И мы не имеем в виду только глобальные катастрофы (землетрясения, цунами, террористические атаки,) Есть множество меньших катастроф, которые могут причинить такой же ущерб. Например такие банальные вещи, как ошибки программ, протечки воды в серверной, зараженные вирусом файлы, и т.д. Конечно, всегда можно положиться на «авось», но как бы не вышло что этот «авось» станет последним для вашего бизнеса.

DRP — это описание действий сотрудников в случае аварии (ситуации, когда ПО приложений или оборудование полностью неисправно в течение длительного периода времени). DRP сводит к минимуму последствия катастрофы и обеспечивает возможность максимально быстро взять под контроль или возобновить выполнение критически-важных задач. Такой план необходим для организаций, имеющих центры обработки данных.

DRP, обеспечивающий непрерывное функционирование бизнеса, предполагает следующие этапы:

исследование работы организации и взаимосвязи её ресурсов;
оценка уязвимости организации во всех областях, включая методы работы, рабочее пространство и оборудование, сохранность и подлинность данных, планирование на случай чрезвычайных обстоятельств;
исследование влияния возможной аварии на различные уровни работы организации;
разработка краткосрочного плана восстановления после аварии;
разработка долгосрочного плана восстановления после аварии, включая план возвращения к нормальным деловым операциям и определение приоритетов среди восстанавливаемых функций;
тестирование и согласованная поддержка и обновление плана по ходу развития компании.

По данным зарубежной печати средняя стоимость приведения в действие плана послеаварийного восстановления для каждого инцидента составляет $287,6 тыс. В Северной Америке средняя стоимость достигает $900 тыс. Во всем мире эта сумма наиболее велика для организаций, работающих в сфере здравоохранения и в сфере финансовых услуг. Так, в Северной Америке средняя стоимость простоев в финансовых учреждениях составляет $650 тыс. Это настораживает, если учесть, что каждое четвертое испытание оказывается неудачным, и только 93% организаций смогли привести свои планы послеаварийного восстановления в действие.