5
我們在Google Cloud(GKE)上託管Kubernetes羣集,並使用Prometheus進行抓取。如何警惕Kubernetes Cluster的健康?
我的問題類似於this之一,但我想知道什麼是K8s羣集中最重要的指標,並可能提醒您注意什麼?
這是一個K8s然後一個普羅米修斯的問題,但我真的很感激一些提示。請讓我知道如果我的問題是模糊的,所以我可以改進它。
我們在Google Cloud(GKE)上託管Kubernetes羣集,並使用Prometheus進行抓取。如何警惕Kubernetes Cluster的健康?
我的問題類似於this之一,但我想知道什麼是K8s羣集中最重要的指標,並可能提醒您注意什麼?
這是一個K8s然後一個普羅米修斯的問題,但我真的很感激一些提示。請讓我知道如果我的問題是模糊的,所以我可以改進它。
etcd是Kubernetes的基礎。因此,爲它提供一組好的警報很重要。 我們寫了this blog post併爲它創建了警報規則,並在最後提供了一個基本集。
Prometheus格式的重要指標的其他來源是Kubelet和cAdvisor,API服務器以及相當新的kube-state-metrics。 對於這些,我不知道任何公共警報規則集與etcd不同。
一般情況下,要確保組件的應用程序完美的工作,e.g:
up
公制)然後有Kubernetes業務邏輯方面,e.g:
不幸的是,這並不是一個簡單的解決方案,但是編寫大致覆蓋上述示例範圍的警報規則應該會讓你走得很遠。
太棒了,謝謝! – tex