01/06/2020
เมฆดำปกคลุมท้องฟ้า อ.เมือง จ.สุรินทร์
และบรรยากาศแบบนี้ สิ่งที่คาดได้เสมอคือ
ไฟดับ
ดับนานเป็นชม. UPS ก็เอาไม่อยู่
พอไฟมา เปิด server ขึ้นปรากฏว่า …
Kubernetes Cluster ล่ม = access ไม่ได้ + service หายหมด
สมมติฐานแรก > SSD พัง แต่หลังจากเช็คแล้วทำงานปกติ
สมมติฐานสอง > OS พัง แต่หลังจากเช็คแล้วทำงานปกติ
สมมติฐานสาม > k8s พัง หลังจากเช็คแล้ว etcd ล่ม ทำให้ cluster ล่มไปด้วย
หาวิธี repair etcd 1 คืนเต็มๆ เหมือนจะสำเร็จ etcd กลับมารันได้ตามปกติ แต่ cluster ก็ไม่กลับคืนมา เอาไงดี ไม่น่าเชื่อว่า K8s จะพ่ายแพ้ต่อเมฆดำง่ายๆ
นึกขึ้นได้ว่าทำ snapshot เอาไว้ แต่ก็ไม่เคยคิดว่ามันจะช่วยได้ ( เพราะไม่เคยใช้มันซักครั้ง )
ลอง restore snapshot กลับคืนทั้งดุ้น ต่อด้วย reboot แล้วก็ลุ้นนนนนนนน
K8s Cluster is Running …
เย้ๆ โล่งใจ เกือบไปแล้วไม๊หล่ะ
สิ่งที่แว๊บเข้ามาในหัวคือ
1. อย่าไว้ในระบบไฟฟ้า
2. Cluster สามารถล่มได้ แม้ไม่มี Hardware เสียหาย
3. Kubernetes Cluster สามารถล่มได้จาก Software ที่ทำงานผิดพลาด ( ดับกระทันหัน )
4. จุด weak ของ K8s คือ etcd
5. ความประมาท ทำให้เจ็บปวด ( ควรทำ snapshot ไว้เสมอ อย่าไว้ใจเด็ดขาด )
20200602://TNK.Theory