Workshop: ตั้งค่า On-Call Alerting ด้วย Prometheus + Alertmanager + PagerDuty

Workshop: ตั้งค่า On-Call Alerting ด้วย Prometheus + Alertmanager + PagerDuty

การมีระบบ Monitoring ที่ดีไม่เพียงพอหากไม่มี On-Call Alerting ที่สามารถแจ้งเตือนทีมได้ทันเวลาเมื่อเกิดปัญหาในเวลากลางคืนหรือวันหยุด การตั้ง Alertmanager ร่วมกับ PagerDuty ช่วยให้ทีม SRE/DevOps สามารถ rotate เวร รับ alert ผ่านโทรศัพท์ และจัดการ incident ได้อย่างเป็นระบบ ลด MTTR (Mean Time To Recovery

Troubleshoot Grafana: Dashboard ไม่แสดง Data, Alert ไม่ทำงาน

Troubleshoot Grafana: Dashboard ไม่แสดง Data, Alert ไม่ทำงาน

Grafana เป็น visualization layer ที่ทีม DevOps ใช้ดู metrics จาก Prometheus, Loki, Elasticsearch และ data source อื่น ๆ เมื่อ dashboard ไม่แสดงข้อมูลตามที่คาดหรือ alert ไม่ถูกส่งออกไป การ troubleshoot ต้องตรวจตั้งแต่ data source, query, panel settings, ไปจนถึง notification policy — บทความนี้รวมวิธีต

Alert Best Practices: สร้าง Alert ที่ Actionable และลด False Positive

Alert Best Practices: สร้าง Alert ที่ Actionable และลด False Positive

ปัญหาที่พบบ่อยที่สุดของทีม oncall คือ notification ท่วมท้นจน engineer เริ่มเพิกเฉย ส่วนใหญ่เกิดจากการตั้งเงื่อนไขแจ้งเตือนที่ไม่ actionable — ปลุกคนกลางดึกโดยไม่มีอะไรต้องทำ, แจ้งซ้ำ ๆ จนกลายเป็น noise, หรือไม่มีบริบทพอที่จะเริ่ม troubleshoot การออกแบบกฎแจ้งเตือนที่ดีจึงเป็นศิลปะที่สำคัญไม่แพ้การเขี

Alertmanager: จัดการ Alerts จาก Prometheus ด้วย Grouping Routing

Alertmanager: จัดการ Alerts จาก Prometheus ด้วย Grouping Routing

Alertmanager เป็นส่วนประกอบสำคัญของ Prometheus ecosystem ที่ทำหน้าที่รับสัญญาณจาก Prometheus server แล้วจัดการตั้งแต่การ deduplicate, grouping, silencing, inhibition ไปจนถึงการ route ส่งต่อยังช่องทางปลายทางเช่น email, Slack, PagerDuty หรือ webhook การใช้งานอย่างถูกวิธีจะช่วยลด noise และทำให้ทีม onca

Alert Management: PagerDuty, Opsgenie สำหรับ On-Call Rotation

Alert Management: PagerDuty, Opsgenie สำหรับ On-Call Rotation

Alert Management เป็นหัวใจของการทำ on-call ที่ดี — แค่ส่งการแจ้งเตือนเข้า email หรือ Slack ยังไม่พอ เพราะเมื่อมีหลาย service หลายทีม notification จะท่วมท้นจนทีมเริ่มเบื่อหน่าย (alert fatigue) และพลาดเหตุการณ์สำคัญ PagerDuty และ Opsgenie เป็น platform ที่ออกแบบมาสำหรับ on-call rotation โดยเฉพาะ มี es

Grafana Alerting: ออกแบบ Alert Rules สำหรับระบบ Monitoring

Grafana Alerting: ออกแบบ Alert Rules สำหรับระบบ Monitoring

Grafana Alerting เป็นระบบ alert ที่ unified ตั้งแต่ Grafana 8 ซึ่งรวมการสร้าง alert rule, notification และ escalation ไว้ในที่เดียว แทนที่ระบบ dashboard alert เดิมที่จำกัดอยู่แค่ panel-level ระบบใหม่ทำงานแบบ rule-based ที่สามารถใช้ query จาก data source หลายตัวมารวมกันเพื่อตัดสินใจว่าจะส่ง alert หรื

DaemonSet ใน Kubernetes รัน Pod บนทุก Node อัตโนมัติ

DaemonSet ใน Kubernetes รัน Pod บนทุก Node อัตโนมัติ

DaemonSet ใน Kubernetes รัน Pod บนทุก Node อัตโนมัติ DaemonSet เป็นเครื่องมือสำคัญใน Kubernetes สำหรับการจัดการ Pod ที่ต้องรันบนทุก Node ในคลัสเตอร์ เช่น monitoring, logging, หรือ networking tools บทความนี้จะอธิบายวิธีใช้งาน DaemonSet อย่างละเอียด DaemonSet คืออะไร? DaemonSet ใน Kubernetes คือ workl

ตั้งค่า Alert: แจ้งเตือนผ่าน LINE/Slack เมื่อ Server มีปัญหา

ตั้งค่า Alert: แจ้งเตือนผ่าน LINE/Slack เมื่อ Server มีปัญหา

การตั้งค่า Alert เพื่อแจ้งเตือนเมื่อ Server มีปัญหาถือเป็นสิ่งสำคัญในการจัดการระบบ IT อย่างมีประสิทธิภาพ แนวคิด “4 Golden Signals” ชี้ให้เห็นว่า ควรติดตามสัญญาณสำคัญ 4 ประการ ได้แก่ Latency (ความล่าช้า), Traffic (ปริมาณการใช้งาน), Errors (ข้อผิดพลาด) และ Saturation (ความอิ่มตัว) โดยการตั

LINE CHAT