Workshop: ตั้งค่า On-Call Alerting ด้วย Prometheus + Alertmanager + PagerDuty

Workshop: ตั้งค่า On-Call Alerting ด้วย Prometheus + Alertmanager + PagerDuty

การมีระบบ Monitoring ที่ดีไม่เพียงพอหากไม่มี On-Call Alerting ที่สามารถแจ้งเตือนทีมได้ทันเวลาเมื่อเกิดปัญหาในเวลากลางคืนหรือวันหยุด การตั้ง Alertmanager ร่วมกับ PagerDuty ช่วยให้ทีม SRE/DevOps สามารถ rotate เวร รับ alert ผ่านโทรศัพท์ และจัดการ incident ได้อย่างเป็นระบบ ลด MTTR (Mean Time To Recovery

Alertmanager: จัดการ Alerts จาก Prometheus ด้วย Grouping Routing

Alertmanager: จัดการ Alerts จาก Prometheus ด้วย Grouping Routing

Alertmanager เป็นส่วนประกอบสำคัญของ Prometheus ecosystem ที่ทำหน้าที่รับสัญญาณจาก Prometheus server แล้วจัดการตั้งแต่การ deduplicate, grouping, silencing, inhibition ไปจนถึงการ route ส่งต่อยังช่องทางปลายทางเช่น email, Slack, PagerDuty หรือ webhook การใช้งานอย่างถูกวิธีจะช่วยลด noise และทำให้ทีม onca

LINE CHAT