WordPress Next-Generation Hosting Incident 11-Jan-2024

WordPress Next-Generation Hosting Incident#1

Incident-11-01-2024

ปัญหาเกิดจากการที่บริษัทฯ ได้ดำเนินการ Maintenance server ที่ให้บริการ Next-Gen WordPress Hosting โดยดำเนินการ Cleanup Libarlies ตามที่ DirectAdmin แนะนำให้ดำเนินการ เนื่องจาก DirectAdmin มีการอัพเดทระบบอยู่เสมอ จึงต้องมีการดำเนินการ Cleanup Libaries ที่ DirectAdmin ไม่ได้ใช้งานแล้ว เพื่อป้องกันไม่ให้ Libaries หลาย ๆ ตัวมีปัญหาในอนาคต โดยทางทีมได้มีการดำเนินการในวันที่ 11/01/2024 เวลา 00.31 น. ซึ่งการดำเนินการผ่านไปโดยไม่มี Error อะไรแจ้งขึ้นมาในระบบ

แต่ในวันที่ 11/01/2024 เวลา 12.02 น. ได้มี Alerts จากระบบ Monioting ของบริษัท แจ้งเตือนว่า Web Server Nginx ไม่ทำงาน และไม่สามารถ Start กลับขึ้นมาเองตามปกติได้ เจ้าหน้าที่ Technical Support (Tier1) จึงได้เข้าตรวจสอบเบื้องต้นเพิ่มเติมเพื่อยืนยันปัญหา และพบว่าไม่สามารถ Start Web Server ได้ตาม Procedures ที่ได้มีการกำหนดแนวทางไว้ได้ จึงได้ดำเนินการแจ้ง System Admin ของบริการ Hosting เพื่อเข้าตรวจสอบข้อมูล และพบว่าปัญหาเกิดจาก Libaries บางตัว จึงได้พยายาม Recompile Software ใหม่ แต่ก็ไม่ประสบความสำเร็จจนถึงเวลา 12.31 น. จึงได้ดำเนินการแจ้ง System Engineer ของทางบริษัทฯ เพื่อเข้าดำเนินการแก้ไข

ในเวลา 12.31 น. ทาง Engineer ได้ตรวจสอบปัญหาและยืนยันปัญหาว่าเป็นที่ Libaries หนึ่งตัวที่ได้ลบออกไปในช่วงเวลาของการ Maintenance จึงได้ดำเนินการกู้คืน Libaries ที่ดำเนินการลบออกไป และดำเนินการ Recompile Software ใหม่ จน Services กลับมาใช้งานได้ตามปกติ ตอนเวลา 12.40 น.

และในเวลา 13.10-13.20 น. ทางบริษัทฯ ได้ดำเนินการ Cleanup Config ให้เป็นค่าเริ่มต้นของ DirectAdmin และ Recompile Software ใหม่อีกครั้งเพื่อที่จะ Reproduce Issues เพื่อเป็นข้อมูลที่จะต้องใช้ส่งเรื่องให้กับทาง DirectAdmin เพื่อตรวจสอบและแก้ไขปัญหา

Incident Report

  • 12.02 – 12.40 น.
  • 13.10 – 13.20 น.

TOTAL Downtime: 48 Minutes
SLA Availability (Yearly): 99.90% – 8h 41m 38s
Current Availability: 99.99%

Was this article helpful?