Disaster Recovery چیست؟ اصول برنامهریزی بازیابی از فاجعه
در این مقاله میخوانید
Disaster Recover چیست؟ Disaster Recover یا بازیابی از حادثه، شامل فرایندها، سیاستها و تکنیکهایی است که بعد از وقوع یک رویداد مخرب، برای بازیابی سیستمهای فناوری اطلاعات (IT) و جبران خسارات انجام میشود. این استراتژی، یک راهکار کلیدی برای حفظ تداوم کسبوکار و حفاظت از دادهها است که سازمان را بهسرعت به حالت قبل برمیگرداند. در این مطلب از بخش آموزش کسبوکار اینترنتی، با مفهوم Disaster Recovery آشنا شده و میبینید که چگونه میتوان با برنامههای بازیابی از حادثه، آمادگی لازم برای مواجهه با بحرانها را به دست آورد.
تعریف Disaster Recover
مدیریت ریسک (Risk Management) در سازمانها و شرکتهای فناوری اطلاعات، به معنی آمادگی برای وقوع هرگونه رویداد مخرب است. رویدادی که میتواند از حملات عمدی خرابکارانه یا اشتباهات سهوی تا آتشسوزی، زلزله و… را شامل شود. این رخدادها میتواند شبکه را قطع کرده و سیستم را در عمل از دسترس کاربران خارج کند.
اما Disaster Recover چیست؟ بازیابی پس از فاجعه (Disaster Recover) یا بهاختصار «DR»، به معنی پلنها و سیاستهایی است که از قبل برنامهریزی شده تا در شرایط بحرانی، سریعترین و درستترین عکسالعمل نشان داده شود. به این برنامهریزیها، Disaster Recovery Plan (DRP) گفته میشود.
تداوم کسبوکار و به حداقل رساندن زمان خرابی و اختلالات عملیاتی، مهمترین هدف Disaster Recover است. به طوری که اگر این پلن درست برنامهریزی شده باشد، برنامههای کاربردی حیاتی میتواند در عرض چند دقیقه به حالت عادی برگردد.
Disaster Recovery یکی از ارکان BCP) Business Continuity Plan) یا طرح تداوم کسبوکار است. در واقع بازیابی پس از فاجعه، به طور خاص روی بازیابی زیرساختهای فناوری اطلاعات و دادهها تمرکز دارد. اما BCP یک رویکرد جامعتر است که شامل تمامی جنبههای حیاتی سازمان (مانند پرسنل، فرایندهای تجاری، تأمینکنندگان و مشتریان) میشود.
در پاسخ به اینکه Disaster Recover چیست، باید آن را استراتژیهایی در حوزهی فناوری اطلاعات (IT) معرفی کنیم که آسیبها و تهدیدهای احتمالی را پیشبینی کرده و سازمان را برای آنها آماده میکند. رسالت «بازیابی پس از فاجعه» حفاظت از دادهها و کاهش خسارات است. برای مثال پشتیبانی ابری برای بازیابی از فاجعه، یکی از بهترین تدابیر کاهش زیانهای احتمالی است.
چه چیزهایی Disaster محسوب میشود؟
استراتژیهای بازیابی از فاجعه، بر پاسخگویی به بلایا و بهبودی پس از آن تمرکز دارد. رویدادهایی که فعالیت یک کسب و کار را مختل کرده یا به طور کامل متوقف میکند. اما چه رویدادهایی میتواند Disaster باشد؟ رویدادهای زیر رایجترین فجایعی است که میتواند سیستمها را تهدید کند:
- خطرات تکنیکی (قطعی برق، انفجار خط لوله، حوادث حملونقل و…)
- بلایای طبیعی (زلزله، سیل، گردباد، طوفان یا آتشسوزی جنگلی)
- حملات سایبری (از طریق بدافزار، باجافزار، DDoS و… )
- تهدیدات انسانی (حملات تروریستی یا بیوشیمیایی)
- خرابی ماشین و سختافزار
- همهگیریها و اپیدمیها
سازوکار Disaster Recovery چگونه است؟
بازیابی پس از فاجعه، مستلزم یک برنامه قوی است تا بتواند بعد از وقوع رویداد، سیستم را فوراً به حال قبل برگرداند. اما فرایندی را که در این استراتژی طی میشود، میتواند به سه فاز اصلی تقسیم کرد:
- جلوگیریکننده (Preventive): سیستم همیشه در معرض خطراتی مشخص است. پس راحتترین راه جلوگیری از وقوع این رویدادها، استفاده از ابزارها و تکنیکهایی است که ایمنی را در ابعاد مختلف ارتقا میدهد. تکنیکهایی مانند پشتیبانگیری ابری از دادههای حیاتی، بهروزرسانی نرمافزارها و سختافزارها، اجرای سیاستهای امنیتی برای جلوگیری از حملات سایبری یا خرابیهای ناگهانی و… .
- تشخیصی (Detective): پیشنیاز پاسخ سریع به فجایع، تشخیص سریع و درلحظه فاجعه و پیدا کردن ریشه آن است. بهترین راهکارهای تشخیص سریع مشکل شامل استفاده از ابزارهای نظارتی، هشدارهای آنی برای اعلام وقوع بحران و… است.
- اصلاحی (Corrective): وقتی فاجعه رخ داده و مشکل فوری شناسایی شده، نوبت بازیابی سیستم است. این فاز نیز شامل بازیابی دادهها (از پشتیبانها یا اسنپشاتهای لحظهای)، تعمیر یا جایگزینی سختافزارهای آسبدیده و… است.
دلیل اهمیت Disaster Recover چیست؟
تداوم کسبوکار و بازیابی از فاجعه، رابطهی مستقیمی دارد. هر چه پلنهای دقیقتری برای مشکلات احتمالی داشته باشید، احتمال آسیب دیدن کسبوکار کمتر است. در واقع تدوین استراتژیهای فکرشدهی بازیابی پس از فاجعه در کنار پشتیبانگیری از دادهها (Data Backup) میتواند تأثیر بدافزار یا خطرات امنیتی دیگر را بهمراتب کمتر کند.
High Availability (HA) یا دسترسی سطح بالا نیز نوعی برنامهریزی است که سعی میکند دسترسی سیستمها و سرویسها را بهصورت مداوم تضمین کرده و از خرابیها و قطعیهای ناگهانی جلوگیری کند. IT Resilience یا تابآوری فناوری اطلاعات نیز به قدرت سازمانها در جلوگیری از وقوع اختلالات اشاره دارد. اما گاهی وسعت یا عمق فاجعه به اندازهای است که High Availability یا Resilience هم راهِ چاره نیست. در این صورت برنامههای بازیابی پس از فاجعه به میان میآید و بحران را مدیریت میکند.
پلن بازیابی یا Disaster Recovery Plan (DRP)، از هزینههای اضافه نیز جلوگیری میکند. چراکه بروز یک حادثه (بسته به شدت آن) خسارات مالی سنگینی برای سازمان دارد. اما هر چه ریکاوری سریعتر انجام شده باشد، این هزینه نیز کمتر خواهد بود.
البته هر چه Redundancy (افزونگی) سیستمها قویتر باشد، احتمال نیاز به Disaster Recovery کمتر میشود. با وجود این، نداشتن استراتژی برای بازیابی، میتواند عملکرد سیستم را حتی در مواجهه با یک رویداد کوچک نیز مختل کند.
اندازهگیری میزان موفقیت استراتژیهای بازیابی از فاجعه
قدرت برنامهی بازیابی از فاجعه با دو مفهوم زیر سنجیده میشود:
- Recovery Point Objectives (RPO): پارامتر PRO به معنی حداکثر دادهای است که سازمان در صورت وقوع حادثه، از دست میدهد. البته این دادهها از نظر زمانی (و نه حجمی) اندازهگیری میشود. مثلاً اگر یک بانک RPO را ۸ ساعت تعیین کرده، یعنی این بانک هر ۸ ساعت یک بار از اطلاعات بکآپ میگیرد. پس اگر دادهها دچار حادثه شود، در بدترین حالت اطلاعات ۸ ساعت گذشته از دست رفته است. بدیهی است که هر چه RPO کمتر باشد، یعنی استراتژیهای بازیابی از فاجعه قویتر است.
- Recovery Time Objectives (RTO): پارامتر RTO به معنی حداکثر مهلتی است که سازمان برای بازیابی اطلاعات دارد. اگر مدت RTO تمام شود، سازمان آسیبهای جدی میبیند. مثلاً RTO یک شرکت، ۲ ساعت است. اگر این شرکت خدمات حیاتی خود را تا ۲ ساعت بعد از یک حادثه به حالت قبل برنگرداند، دچار ضرر و زیانهای مالی جدی شده یا اعتماد مشتریان خود را از دست میدهد.
اصول برنامهریزی بازیابی از فاجعه
تا به این بخش دیدید که Disaster Recover چیست. اما این استراتژی شامل چه بخشهایی است؟ در ادامه ۵ عنصر اصلی یک پلن کامل و قدرتمند را برای بازیابی پس از فاجعه میبینید.
۱. تشکیل تیم بازیابی
سازمانهای حساس یا بزرگ، یک تیم را به تدوین، اجرا و مدیریت طرح Disaster Recover اختصاص میدهد. اعضای این تیم، وظایف زیر را به عهده دارند:
- مدیریت بحران و ارتباط با واحدهای دیگر سازمان
- برنامهریزی برای تداوم کسب و کار
- ارزیابی تأثیر استراتژیهای بازیابی
- و…
۲. ارزیابی دقیق ریسکها
مدیریت بحران در سازمانها در صورتی کامل و جامع است که دقیقاً مناسب خطرات احتمالی باشد. چراکه اقدامات و منابع لازم برای Disaster Recover، کاملاً به نوع حادثه و حتی جزئیات آن بستگی دارد. بنابراین باید تعیین کنید که چه تهدیدهایی سازمان را تهدید میکند؟ بهینهترین روشهای مقابله با این خطرات بالقوه چیست؟
۳. تعیین زمانبندیهای Disaster Recover
منظور از زمانبندی در Disaster Recovery چیست؟ تعیین دو پارامتری دارد که بالاتر دیدید؛ یعنی Recovery Point Objectives و Recovery Time Objectives. این پارامترها باید پیش از وقوع حادثه و بهصورت دقیق تعیین شود. مهمترین عوامل تأثیرگذار در این پارامترها نیز میزان حساسیت فعالیت سازمان و منابع موجود است.
۴. تدوین و اجرای استراتژی پشتیبانگیری
اهمیت پشتیبانگیری دادهها در برنامههای بازیابی از فاجعه، بیش از هر زمان دیگری مشهود است. یکی از اصول برنامهریزی Disaster Recover این است که در مورد نوع و میزان پشتیبانگیری تصمیم بگیرید. در این فاز تعیین میکنید که از چه دادههایی باید پشتیبان گرفته شود؟ روش پشتیبانگیری چه باشد؟ چه کسی این کار را انجام دهد؟
نوع پشتیبانی از دادهها، تا حد زیادی به پارامترهای RPO و RTO بستگی دارد. اما به طور کلی روشهایی که میتوان برای داشتن پشتیبانهای مطمئن استفاده کرد، عبارت است از:
- ذخیرهسازی دادهها در سرویسهای ابری
- امکان پشتیبانگیری توسط فروشنده
- انتخاب مکانی دور از خودِ سازمان برای ذخیرهی نسخههای پشتیبان (برای جلوگیری از خسارات بلایای طبیعی)
۵. تست و بهینهسازی
مدیریت بحران IT و بهویژه Disaster Recovery، نیازمند استراتژیهای بهروزی است که با وضعیت جاری سازمان همسو باشد. بنابراین تیم بازیابی باید استراتژی خود را بهصورت مستمر برای رسیدگی به تهدیدات و تأمین نیازهای در حال تحول، آزمایش و بهروز کند. بهبود زیرساخت نیز همواره بخشی از استراتژیهای سازمانهای فناوری اطلاعات است که جزئیات آن به نتیجه این تستها و ارزیابیها بستگی دارد.
برای مطالعه در زمینه نحوه خیرهسازی دادهها در سرویسهای ابری مقاله زیر را بخوانید:
بهترین روشهای Disaster Recover چیست؟
پایداری سازمانی با Disaster Recover با چه روشهایی تأمین میشود؟ در ادامه رایجترین روشهایی را میبینید که در برنامههای بازیابی از فاجعه گنجانده میشود.
۱. بازیابی پس از فاجعه بهعنوان یک سرویس یا Disaster Recovery as a Service
Disaster Recovery as a Service (بازیابی پس از فاجعه بهعنوان یک سرویس)، شامل پشتیبانگیری ابری از دادهها و سیستمها و بازیابی آنها در عرض چند دقیقه یا حداکثر چند ساعت است. در این روش بازیابی زیرساختهای فناوری اطلاعات، بهعهده ارائهدهنده سرویس است.
۲. پشتیبانگیری بهعنوان یک سرویس یا Backup as a Service
Backup as a Service (پشتیبانگیری بهعنوان یک سرویس) از پشتیبانگیری در فضای ذخیرهسازی ابری (Cloud Backup) برای سادهسازی بازیابی دادهها (Data Recovery) پس از رویداد احتمالی کمک میگیرد. در این سرویس، دادهها بهصورت خودکار و منظم در فضای ابری ذخیره میشود. محدود نبودن این فضای ذخیرهسازی به یک مکان فیزیکی خاص، دسترسیپذیری دادهها را چندبرابر میکند. ضمن این که ارائهدهندگان BaaS از تکنیکهای پیشرفته رمزنگاری نیز استفاده میکنند و از این طریق امنیت دادهها را به مراتب افزایش میدهند.
۳. عکسهای لحظهای یا Point-in-Time Snapshots
Point-in-Time Snapshots (عکسهای لحظهای) یک روش پشتیبانگیری پیشرفته دیگر است که در یک لحظه خاص، یک نسخه از دادهها را ذخیره میکند. بهاینترتیب میتوانید هر زمان که لازم بود، دادهها را دقیقاً به همان وضعیت برگردانید. روشی که در محیطهایی مانند دیتابیسها (که به بازیابی سریع و دقیق اطلاعات نیاز دارد)، کاربرد زیادی دارد. جالب آن که اسنپشاتها برخلاف پشتیبانگیریهای سنتی، بار کمتری روی سرویس دارد.
۴. تعبیهی تجهیزات مناسب برای مراکز داده
مراکز داده و بازیابی از فاجعه، رابطهای حساس و تعیینکنندهای دارد. بیشترین حوادثی که این مراکز را تهدید میکند، بلایای طبیعی است. اما تعبیهی ابزارهای اطفاء حریق، منابع برق پشتیبان و… میتواند تأثیر این بلایا را تا حد زیادی کم کند.
۵. مجازیسازی
مفاهیمی مانند مجازیسازی، نقش فناوری در بازیابی از فاجعه را پررنگتر میکند. کسبوکارها به کمک ماشین مجازی (Virtual Machine) سیستمهای خود را پس از حادثه در یک مکان جغرافیایی جدید راهاندازی میکنند. ضمن این که ماشینهای مجازی به دلیل بازیابی سریع تصاویر و الگوها میتواند زمان بازیابی را به شدت کاهش دهد.
برای آشنایی بیشتر با ماشین مجازی مقاله زیر از سایت پارسپک را بخوانید:
۶. سایت سرد (Cold Site)
Cold Site (سایت سرد) مکانی شامل تأسیسات حیاتی برای ادارهی امور سازمان است. مکانی که در حالت عادی بهندرت استفاده میشود. اما اگر اتفاقی برای مکان اصلی رخ دهد، کارمندان به سایت سرد منتقل میشوند. این روش به امنیت اطلاعات یا بازیابی آنها کمک مستقیمی نمیکند. در عوض باعث میشود روند فعالیت نیروهای کار، بهصورت مستمر حفظ شود.
۷. سایت داغ یا Hot Site
Hot Site (سایت داغ) یک مکان کاملاً آمادهبهکار است که تمام سختافزارها، نرمافزارها و دادههای بهروزشده را دارد. این مکان میتواند بلافاصله پس از وقوع فاجعه، به عنوان جایگزین مرکز اصلی، شروع به کار کند. سایت داغ معمولاً برای سازمانهایی کاربردی است که به بازیابی سریع و حداقل وقفه در عملیات نیاز دارد.
فضای ابری امن تهیه کنید!
استفاده از فضای ابری برای بسیاری از کسبوکارهای آنلاین ضروری است. از آنجاییکه محافظت از اطلاعات کاربران وبسایت یا اپلیکیشن شما، بسیار اهمیت دارد، یکی از مهمترین ویژگیهای فضای ابری مناسب، قابلیت بکآپ گرفتن است؛ پارسپک با ارائه سرویسهای متنوع فضای ابری با قیمت مناسب و امنیت بالا، خیال شما را از این بابت راحت کردهاست. برای مشاهده جزئیات این محصول به لینک زیر مراجعه کنید:
جمعبندی
Disaster Recover چیست؟ بازیابی پس از فاجعه، بخشی حیاتی از استراتژیهای مدیریت بحران IT است که سازمانها به کمک آن میتوانند سیستمها، دادهها و عملیات حیاتی خود را پس از وقوع حوادث غیرمنتظره، بازیابی کنند. باید بدانید که طبق تحقیقات، بیش از 90% کسبوکارهایی که نمیتوانند ظرف 5 روز پس از یک فاجعه به عملکرد عادی بازگردند، در سالهای بعدی دچار ورشکستگی میشوند. این آمار، نشاندهنده اهمیت حیاتی برنامهی DR در بقا و موفقیت بلندمدت سازمان است.
سؤالات متداول
۱. رابطهی بازیابی از فاجعه و امنیت سایبری چیست؟
امنیت سایبری از وقوع حملات امنیتی جلوگیری میکند. بازیابی از فاجعه نیز بازیابی سریع سیستمها و دادهها را در صورت بروز حملهی سایبری تضمین میکند. این دو با هم یک استراتژی جامع برای حفظ تداوم کسبوکار را میسازد.
۲. چگونه میتوان هزینههایDisaster Recovery را مدیریت کرد؟
با تحلیل دقیق نیازهای مربوط به بازیابی، انتخاب صحیح روشها، استفاده از سرویسهای ابری و… .
۳. چرا Redundancy در Disaster Recovery مهم است؟
Redundancy با ایجاد نسخههای اضافی از اجزای سیستم، زمان توقف را کاهش و قابلیت اطمینان را افزایش میدهد. بنابراین در صورت وقوع اختلال، به بازیابی گسترده نیازی نیست.