2016-09-07 72 views
5

我們在Google Cloud(GKE)上託管Kubernetes羣集,並使用Prometheus進行抓取。如何警惕Kubernetes Cluster的健康?

我的問題類似於this之一,但我想知道什麼是K8s羣集中最重要的指標,並可能提醒您注意什麼?

這是一個K8s然後一個普羅米修斯的問題,但我真的很感激一些提示。請讓我知道如果我的問題是模糊的,所以我可以改進它。

回答

5

etcd是Kubernetes的基礎。因此,爲它提供一組好的警報很重要。 我們寫了this blog post併爲它創建了警報規則,並在最後提供了一個基本集。

Prometheus格式的重要指標的其他來源是Kubelet和cAdvisor,API服務器以及相當新的kube-state-metrics。 對於這些,我不知道任何公共警報規則集與etcd不同。

一般情況下,要確保組件的應用程序完美的工作,e.g:

  • 運行/到達我kubelets/API服務器? (up公制)
  • 它們的響應延遲和錯誤率是否在範圍內?
  • API服務器可以到達etcd嗎?

然後有Kubernetes業務邏輯方面,e.g:

  • 是否有已在非就緒/ crashloop狀態永遠莢?
  • 我的集羣中有足夠的CPU /內存容量嗎?
  • 我的部署副本期望值是否滿足?

不幸的是,這並不是一個簡單的解決方案,但是編寫大致覆蓋上述示例範圍的警報規則應該會讓你走得很遠。

+0

太棒了,謝謝! – tex