Chúng ta đều từng mắc lỗi hoặc gặp tai nạn. Con người không tránh khỏi sai lầm. Với vai trò là một chuyên viên hỗ trợ IT, việc chuẩn bị cho những tình huống thảm họa hay tai nạn là vô cùng quan trọng. Có thể là một cơn xung điện làm hỏng ổ cứng của máy chủ cơ sở dữ liệu, hoặc ai đó vô tình xóa nhầm thư mục. Những điều này xảy ra và bạn cần sẵn sàng đối phó. Đó chính là lý do tại sao kế hoạch phục hồi thảm họa (Disaster Recovery Plan) rất quan trọng.
Kế hoạch phục hồi thảm họa là một tập hợp các quy trình và hướng dẫn về cách phản ứng và xử lý các tình huống khẩn cấp hoặc thảm họa từ góc độ vận hành. Nó bao gồm các việc cần làm trước, trong và sau khi xảy ra thảm họa. Mục tiêu của kế hoạch này là giảm thiểu sự gián đoạn đến hoạt động kinh doanh và IT, giữ cho thời gian ngừng hệ thống ở mức tối thiểu và ngăn chặn mất mát dữ liệu đáng kể.
Mặc dù tên gọi là "kế hoạch phục hồi thảm họa", thực tế nó bao gồm cả các biện pháp phòng ngừa và phát hiện, bên cạnh các biện pháp khôi phục sau thảm họa. Các biện pháp phòng ngừa bao gồm những quy trình hoặc hệ thống nhằm giảm thiểu tác động của thảm họa. Điều này có thể là sao lưu thường xuyên hoặc hệ thống dự phòng. Bất kỳ việc nào thực hiện trước thảm họa nhằm giảm thời gian ngừng hoạt động đều được coi là phòng ngừa. Ví dụ, tiêu chuẩn cho các dịch vụ và cơ sở hạ tầng mạng quan trọng thường là sử dụng các nguồn cấp điện dự phòng, giúp giảm thời gian ngừng hoạt động nếu một nguồn cấp điện bị hỏng hoặc mất điện.
Biện pháp phát hiện nhằm cảnh báo bạn và đội ngũ về việc thảm họa đã xảy ra và có thể ảnh hưởng đến hoạt động. Việc nhận thông báo kịp thời là vô cùng quan trọng vì một số bước trong kế hoạch phục hồi có thể yêu cầu hành động nhanh chóng để tránh mất dữ liệu hoặc hư hại thiết bị. Ví dụ, khi mất điện, hệ thống quan trọng có thể chuyển sang sử dụng pin dự phòng, nhưng nguồn pin chỉ duy trì trong thời gian ngắn. Để tránh mất dữ liệu, hệ thống cần được tắt một cách an toàn trước khi hết nguồn. Đó là lý do tại sao nhiều hệ thống có chức năng gửi cảnh báo khi mất điện. Ngoài ra, các yếu tố môi trường trong phòng máy chủ hay mạng cũng cần được giám sát, như cảm biến lũ lụt, nhiệt độ, độ ẩm, hay cảnh báo cháy nổ.
Không chỉ công nghệ cần được bảo vệ để doanh nghiệp hoạt động liên tục, mà cả con người cũng vậy. Mặc dù việc sơ tán tòa nhà thường thuộc trách nhiệm của quản lý tòa nhà, nhưng với vai trò là chuyên viên IT, bạn có thể làm việc cùng họ về các hệ thống như cung cấp điện, làm mát và sơ tán. Nếu có hỏa hoạn và mọi người phải sơ tán, bạn cần có kế hoạch để đảm bảo công việc vẫn được duy trì, chẳng hạn bằng cách làm việc từ xa.
Cuối cùng, các biện pháp khôi phục sẽ được thực hiện sau khi thảm họa xảy ra, bao gồm việc khôi phục dữ liệu từ các bản sao lưu hoặc cấu hình lại các hệ thống bị hư hại. Sau khi thảm họa được phát hiện và các biện pháp ngăn ngừa hoặc giảm thiểu được áp dụng, công việc khôi phục hệ thống sẽ bắt đầu. Thường thì thảm họa sẽ ảnh hưởng đến một hệ thống trong cấu hình dự phòng, ngăn chặn sự cố hoàn toàn. Tuy nhiên, nếu một hệ thống trong cặp dự phòng bị hỏng, bạn sẽ không còn dự phòng cho thảm họa tiếp theo. Điều này được gọi là "điểm thất bại đơn lẻ" (single point of failure), và đó là tình huống bạn không muốn gặp phải.
Chúng ta đã thảo luận các yếu tố quan trọng của kế hoạch phục hồi thảm họa. Giờ bạn có thể nghỉ ngơi một chút trước khi tiếp tục ở video tiếp theo.
Chính xác thì một kế hoạch khắc phục thảm họa hiệu quả bao gồm những gì? Điều đó còn tùy. Hãy nhớ rằng không có một kế hoạch khắc phục thảm họa nào phù hợp với tất cả. Các cơ chế được chọn và quy trình được áp dụng sẽ phụ thuộc rất nhiều vào các yếu tố cụ thể của tổ chức và môi trường của bạn. Nhưng chúng ta có thể bắt đầu bằng cách đề cập chi tiết hơn đến ba loại biện pháp. Chúng ta cũng sẽ xem xét một số ví dụ để giúp bạn hình dung những điều cần suy nghĩ.
Một cách tốt để hiểu những gì cần lên kế hoạch là thực hiện đánh giá rủi ro. Điều này bao gồm việc xem xét kỹ lưỡng các hoạt động và đặc điểm của các nhóm của bạn. Đánh giá rủi ro cho phép bạn ưu tiên các khía cạnh nhất định của tổ chức có nguy cơ cao hơn nếu có sự kiện không lường trước được. Đánh giá rủi ro có thể bao gồm việc động não các tình huống giả định và phân tích các sự kiện này để hiểu chúng sẽ ảnh hưởng như thế nào đến tổ chức và hoạt động.
Khi xem xét các biện pháp phòng ngừa, hãy chú ý đến các hệ thống như dự phòng. Nếu đó là điều quan trọng để cho phép hoạt động, có lẽ nó nên có một phụ tùng dự phòng để phòng trường hợp. Đảm bảo rằng bạn có một hệ thống sao lưu và khôi phục hợp lý cùng với một chiến lược tốt. Lý tưởng nhất là bạn nên sao lưu tự động thường xuyên vào các hệ thống sao lưu đặt cả tại chỗ và ngoài cơ sở. Điều quan trọng nữa là bạn phải ghi chép rõ ràng các quy trình khôi phục dữ liệu và cập nhật chúng. Khôi phục dữ liệu sau thảm họa hy vọng là điều bạn hiếm khi làm. Điều quan trọng là phải đảm bảo rằng các quy trình này được cập nhật vì hệ thống thay đổi và phát triển trong suốt vòng đời của chúng.
Sự dự phòng không nên chỉ giới hạn ở các hệ thống, bất cứ điều gì quan trọng đối với hoạt động nên được dự phòng bất cứ khi nào có thể. Điều này bao gồm cung cấp hoặc cung cấp điện, hệ thống liên lạc, liên kết dữ liệu và phần cứng. Hãy suy nghĩ kỹ về tác động của một thảm họa ảnh hưởng đến từng khía cạnh này đối với hoạt động hàng ngày của bạn, điều gì sẽ xảy ra với mạng của bạn nếu tòa nhà bị mất điện? Bạn có thể tiếp tục làm việc tại đường dây dữ liệu cáp quang cho tòa nhà bị hư hại do công trình gần đó không? Gọi rautive cho văn phòng vừa bốc cháy. Được rồi, cái cuối cùng hơi xa vời, nhưng tôi nghĩ bạn hiểu tôi đang nói đến đâu.
Một biện pháp phòng ngừa cực kỳ quan trọng khác cần được đánh giá và xác minh là tài liệu vận hành. Đảm bảo rằng mọi quy trình vận hành quan trọng đều được ghi chép lại và có thể truy cập được. Điều này bao gồm những việc như thiết lập và cấu hình các hệ thống quan trọng trong cơ sở hạ tầng. Bất kỳ bước hoặc chi tiết cấu hình cụ thể nào cần thiết để khôi phục 100% chức năng cho các hệ thống và dịch vụ cốt lõi phải được ghi chép lại chi tiết. Điều quan trọng nữa là tài liệu này phải được cập nhật. Một cách hiệu quả để làm điều này là định kỳ xác minh rằng các bước được ghi chép thực sự hoạt động. Bạn không muốn thấy mình rơi vào tình huống cần cấu hình lại hệ thống sau sự cố chỉ để phát hiện ra rằng tài liệu sai.
Khi xem xét các biện pháp phát hiện, bạn sẽ muốn đảm bảo rằng bạn có một hệ thống toàn diện có thể nhanh chóng phát hiện và cảnh báo bạn về sự cố ngừng hoạt động dịch vụ hoặc các điều kiện môi trường bất thường. Nếu thời gian hoạt động và tính khả dụng là quan trọng đối với tổ chức của bạn, bạn có thể sẽ có hai kết nối internet, một kết nối chính và một kết nối phụ. Lý tưởng nhất là bạn sẽ muốn giám sát trạng thái kết nối của cả hai liên kết này, chúng phải được cấu hình để tự động chuyển đổi dự phòng nếu một liên kết bị hỏng, nhưng bạn vẫn sẽ muốn được cảnh báo khi điều này xảy ra. Vì vậy, bạn có thể điều tra lý do tại sao liên kết bị hỏng và tìm cách khôi phục liên kết đó càng sớm càng tốt.
Cách suy nghĩ về việc thiết kế các biện pháp phát hiện là đánh giá điều gì là quan trọng nhất đối với hoạt động hàng ngày của tổ chức. Những dịch vụ và quyền truy cập cơ sở hạ tầng nào là thực sự cần thiết? Đó là những dịch vụ bạn nên theo dõi chặt chẽ và không chỉ là sự cố ngừng hoạt động hoặc lỗi hoàn toàn mà bạn nên theo dõi. Tất nhiên, bạn sẽ muốn theo dõi những điều đó, nhưng bạn cũng muốn theo dõi các điều kiện cho thấy rằng một vấn đề có khả năng xảy ra. Nếu chúng ta có thể tránh được một lỗi nghiêm trọng bằng cách được cảnh báo về máy chủ quá nóng trước khi nó bị lỗi, điều đó sẽ tốt hơn nhiều, phải không? Vì vậy, bạn muốn giám sát tình trạng của dịch vụ và thiết bị cơ sở hạ tầng, những thứ như nhiệt độ, tải CPU và tải mạng. Đối với dịch vụ giám sát tỷ lệ lỗi và số lượng yêu cầu mỗi giây sẽ cho bạn cái nhìn sâu sắc về hiệu suất của hệ thống. Bạn nên điều tra bất kỳ đột biến bất thường hoặc tăng bất ngờ nào. Các hệ thống cảnh báo sớm này cho phép bạn ngăn chặn thảm họa trước khi nó khiến hoạt động ngừng lại. Và tất nhiên, bạn nhất đinh phải kiểm tra các hệ thống này, mô phỏng các điều kiện mà hệ thống giám sát của bạn được thiết kế để nắm bắt, đảm bảo rằng ngưỡng phát hiện thực sự kích hoạt cảnh báo như bình thường. Việc kiểm tra này cũng vượt ra ngoài các hệ thống giám sát, bạn cũng muốn kiểm tra phản ứng và phản hồi của mình đối với các cảnh báo này. Nếu bạn đang giám sát các hệ thống kích hoạt cảnh báo một cách đáng tin cậy, nhưng mọi người chỉ bỏ qua chúng, thì chúng không hữu ích lắm, phải không? Bạn muốn thực hiện kiểm tra thảm họa thường xuyên để đảm bảo hệ thống đang hoạt động và các quy trình của bạn để xử lý chúng cũng đáp ứng được nhiệm vụ.
Các biện pháp khắc phục hoặc phục hồi bao gồm các hành động được thực hiện để khôi phục hoạt động bình thường và để phục hồi sau sự cố hoặc ngừng hoạt động. Điều này bao gồm các bước như khôi phục cơ sở dữ liệu bị hỏng từ bản sao lưu hoặc xây dựng lại và cấu hình lại máy chủ. Kế hoạch khắc phục thảm họa của bạn nên bao gồm tham chiếu hoặc liên kết đến tài liệu cho các loại tác vụ này, bất cứ điều gì và mọi thứ sẽ được yêu cầu để khôi phục hoạt động bình thường sau một số thảm họa. Đây là nơi các bước để khôi phục các hệ thống và dữ liệu khác nhau từ bản sao lưu. Tài liệu khắc phục thảm họa không cần phải chứa chi tiết của các hoạt động. Các liên kết và tài liệu tham khảo là đủ, nhưng điều quan trọng là phải chuẩn bị cho tình huống mà các phương pháp truy cập tài liệu thông thường không khả dụng. Hãy tưởng tượng bạn lưu giữ tất cả tài liệu vận hành của mình trong wiki trên máy chủ chuyên dụng. Điều gì sẽ xảy ra khi máy chủ đó bị ngừng hoạt động? Điều quan trọng là tài liệu quan trọng có thể truy cập được nếu xảy ra tình huống khẩn cấp hoặc thảm họa.