如何警惕Kubernetes Cluster的健康？

我們在Google Cloud（GKE）上託管Kubernetes羣集，並使用Prometheus進行抓取。如何警惕Kubernetes Cluster的健康？

我的問題類似於this之一，但我想知道什麼是K8s羣集中最重要的指標，並可能提醒您注意什麼？

這是一個K8s然後一個普羅米修斯的問題，但我真的很感激一些提示。請讓我知道如果我的問題是模糊的，所以我可以改進它。

2016-09-07 tex

etcd是Kubernetes的基礎。因此，爲它提供一組好的警報很重要。我們寫了this blog post併爲它創建了警報規則，並在最後提供了一個基本集。

Prometheus格式的重要指標的其他來源是Kubelet和cAdvisor，API服務器以及相當新的kube-state-metrics。對於這些，我不知道任何公共警報規則集與etcd不同。

一般情況下，要確保組件的應用程序完美的工作，e.g：

然後有Kubernetes業務邏輯方面，e.g：

不幸的是，這並不是一個簡單的解決方案，但是編寫大致覆蓋上述示例範圍的警報規則應該會讓你走得很遠。

2016-10-17 11:33:18 fabxc

太棒了，謝謝！ – tex

回答