Mắc sai lầm là điều không thể tránh khỏi trong cuộc sống. Tất cả chúng ta đều phạm sai lầm từ thời gian này đến thời gian khác, và hy vọng rằng mỗi sai lầm đều là cơ hội để học hỏi. Chúng ta cần xem xét những gì đã xảy ra và cố gắng hiểu nguyên nhân của nó để tránh lặp lại trong tương lai. Hãy tưởng tượng một đứa trẻ tập đi, khi chạm vào bếp lò nóng, chúng sẽ bị bỏng. Qua đó, trẻ học được rằng chạm vào bếp lò sẽ đau, và nhanh chóng ngừng hành động đó. Việc học hỏi từ những sai lầm là rất quan trọng, nếu không, chúng ta sẽ liên tục gây ra những tổn thương cho chính mình.
Đó chính là lý do tại sao báo cáo đánh giá sau sự cố (post-mortem report) được tạo ra. Chúng ta lập báo cáo đánh giá sau sự cố sau một sự cố, sự cố mất điện, hoặc khi có điều gì đó không ổn xảy ra, hoặc vào cuối một dự án để phân tích quá trình thực hiện. Báo cáo này ghi lại chi tiết những gì đã xảy ra trước, trong và sau sự kiện hoặc dự án. Mục đích là làm nổi bật những điều đã diễn ra tốt đẹp cũng như những điều không đạt yêu cầu.
Mục tiêu của báo cáo đánh giá sau sự cố không phải là để trừng phạt hay chỉ trích ai đó, mà là để học hỏi từ một sự kiện hoặc dự án. Dù có thể sẽ có một số sai lầm được nêu ra, nhưng ý định không phải là để chỉ trích hay xấu hổ. Thay vào đó, nó nhằm hiểu nguyên nhân gốc rễ của những sai lầm và cách để ngăn chặn chúng trong tương lai.
Quá trình đánh giá sau sự cố không chỉ dừng lại ở việc viết báo cáo. Sau khi báo cáo hoàn thành, nó cần được truyền đạt đến các bên liên quan. Những báo cáo này có giá trị vượt xa những người trực tiếp tham gia vào sự cố, quá trình điều tra và viết báo cáo. Chia sẻ báo cáo đánh giá sau sự cố với các đội khác trong tổ chức sẽ khuyến khích văn hóa học hỏi từ sai lầm. Nó cho thấy đội của bạn sẵn sàng thừa nhận khi mắc lỗi, nhưng không để những sai lầm đó cản trở họ. Điều này trở thành một ví dụ tốt để các đội khác noi theo. Nội dung trong báo cáo cũng có thể gợi ý cho các đội khác nhận ra rằng họ đang gặp phải vấn đề tương tự trong cơ sở hạ tầng của mình.
Khi nói đến báo cáo đánh giá sau sự cố, việc chia sẻ là rất quan trọng. Nếu bạn chấp nhận các báo cáo đánh giá sau sự cố, chúng sẽ thúc đẩy một văn hóa mà ở đó việc mắc lỗi được chấp nhận. Đây là một thái độ lành mạnh trong bất kỳ tổ chức nào. Nếu mọi người sợ mắc sai lầm, việc ra quyết định sẽ trở nên rất thận trọng. Thật khó để mở rộng giới hạn và thử nghiệm những điều mới mẻ nếu mọi người đều lo lắng về việc làm sai. Tuy nhiên, nếu văn hóa phổ biến trong tổ chức cho rằng sai lầm là điều chấp nhận miễn là chúng ta có thể học hỏi từ chúng, bạn sẽ có một tổ chức sẵn sàng chấp nhận rủi ro và thử nghiệm những ý tưởng mới thú vị.
Bây giờ chúng ta đã biết lợi ích của việc đánh giá sau sự cố, chúng ta hãy xem xét kỹ hơn những gì diễn ra trong đó. Một cuộc đánh giá sau sự cố điển hình cho một vụ việc bắt đầu bằng một bản tóm tắt ngắn gọn, chỉ một đoạn văn ngắn tóm tắt vụ việc. Nó phải bao gồm sự cố là gì, nó kéo dài bao lâu, tác động như thế nào và cách khắc phục.
Hãy chú ý đến múi giờ khi liệt kê ngày và giờ trong đánh giá sau sự cố. Luôn ghi rõ múi giờ để rõ ràng tuyệt đối. Tiếp theo, bạn cần có dòng thời gian chi tiết về các sự kiện quan trọng. Điều này phải bao gồm mọi thứ diễn ra trong suốt sự kiện, như thời điểm sự kiện bắt đầu và thời điểm những người liên quan được thông báo hoặc nhận ra điều gì đang diễn ra. Mọi hành động được thực hiện nhằm cố gắng giải quyết tình huống cũng cần được xác định. Chúng có thể chứa thời gian và ngày tháng cùng với múi giờ và ai đã làm gì. Dòng thời gian sẽ bao gồm các hành động được thực hiện để giải quyết tình trạng ngừng hoạt động và khôi phục các dịch vụ báo hiệu sự kiện kết thúc.
Tiếp theo, một bản tường thuật rất chi tiết và trung thực về nguyên nhân gốc rễ sẽ được trình bày. Điều này sẽ đi vào chi tiết giải thích những gì đã dẫn đến vấn đề. Nó có thể là một cái gì đó giống như một thay đổi cấu hình được đưa lên trực tiếp mà không cần kiểm tra thích hợp hoặc một lệnh lỗi chính tả. Hãy nhớ rằng mục đích không phải là đổ lỗi hay xấu hổ, mà là thành thật với những gì đã sai để có thể rút ra bài học từ đó. Nếu nguyên nhân xuất phát từ việc thiếu thử nghiệm, điều này có thể chỉ ra các lĩnh vực cần cải thiện trong quá trình xác minh nhiệm vụ. Nếu đó là từ một lệnh đánh máy, điều này có thể cho thấy sự cần thiết phải tự động hóa quy trình thủ công. Phần giải thích chi tiết hơn về các nỗ lực giải quyết và phục hồi sẽ được ghi lại tiếp theo. Điều này tương tự như dòng thời gian được đề cập trước đó và phải bao gồm ngày, giờ và múi giờ. Nhưng cần đi sâu vào chi tiết hơn về những bước đã được thực hiện để tìm ra lý do căn bản và lý do đằng sau những hành động đó cũng như kết quả của mỗi bước là gì. Việc đưa ra lý do sẽ giúp những người đọc báo cáo có thêm bối cảnh về cách sự kiện diễn ra.
Cuối cùng, hãy kết thúc báo cáo với danh sách các hành động cụ thể cần thực hiện để tránh tình huống tương tự xảy ra lần nữa. Điều này cũng nên bao gồm bất kỳ hành động hoặc nỗ lực nào nhằm cải thiện việc xử lý phản hồi. Các bước để giảm bớt các cải tiến về thời gian phản hồi đối với hoạt động giám sát sẽ hữu ích. Khi bạn lập danh sách những điều cần cải thiện, hãy chú ý đến những thứ như cải tiến hệ thống giám sát. Có thể cuộc điều tra sự cố đã tiết lộ lỗ hổng trong khả năng hiển thị của các hệ thống quan trọng hoặc nguyên nhân điều tra cho thấy hệ thống tự động hóa không hoạt động như dự định. Mặc dù việc đưa ra giải pháp cho những thiếu sót này nằm ngoài phạm vi của báo cáo đánh giá sau sự cố nhưng vẫn cần liệt kê các lĩnh vực cần cải thiện.Dựa trên những khám phá này, các bên mới có thể bắt đầu giải quyết những thiếu sót được tìm thấy.
Một điều thường bị bỏ qua khi đánh giá sau sự cố là điều gì đã diễn ra tốt đẹp, nhưng điều này cũng quan trọng như việc phân tích điều gì đã sai. Trong quá trình phân tích sau sự cố, bạn cũng nên nêu bật những điều đã diễn ra tốt đẹp. Chúng bao gồm các hệ thống không an toàn hoặc không thể khắc phục sự cố hoạt động như được thiết kế và ngăn chặn sự cố ngừng hoạt động lớn hoặc giảm thiểu mức độ nghiêm trọng của sự cố ngừng hoạt động. Điều này giúp chứng minh tính hiệu quả của hệ thống của chúng tôi tại chỗ. Đối với một số người, như những người làm trong lĩnh vực tài chính, đây là tin tốt. Nó biện minh cho bất kỳ chi phí nào liên quan đến các hệ thống này bằng cách chứng minh rõ ràng lợi ích hữu hình. Điều này rất quan trọng đối với bất kỳ hệ thống phòng ngừa nào vì chúng thường được coi là chi phí không cần thiết bởi những người có thể không hiểu đầy đủ về lợi ích của chúng. Những ví dụ về hệ thống hoạt động nhằm ngăn chặn hoặc giảm thiểu tác động của việc mất điện cho thấy lợi ích đó rất rõ ràng. Hy vọng rằng, bây giờ bạn đã chuẩn bị tốt hơn để học hỏi từ bất kỳ sai lầm nào bạn có thể mắc phải trong sự nghiệp của mình và những sai lầm mà chúng tôi đã mắc phải vì bạn là con người, và sau cùng, hãy thừa nhận chúng, học hỏi từ chúng và làm tốt hơn vào lần sau. Điều đó đúng trong CNTT, công việc và trong cuộc sống.