2

我們得到這個消息(通過電子郵件),每天數次:如何阻止AWS CloudWatch UnHealthHostCount虛假警報?

報警: 「ELB-生產UnHealthHostCount」 美國 - 弗吉尼亞N.

你是因爲您的Amazon CloudWatch的警報收到這封電子郵件 「elb-production-UnHealthHostCount」在美國 - 北維吉尼亞州地區有 進入了ALARM狀態,因爲「閾值交叉:1個數據點(0.2) 」大於閾值(0.0)。在「2016年1月21日星期四 17:39:39 UTC」。

查看該警報在AWS管理控制檯: https://console.aws.amazon.com/cloudwatch/home?region=us-east-1#s=Alarms&alarm=elb-production-UnHealthHostCount

警報詳細信息: - 名稱:ELB-生產UnHealthHostCount - 說明: - 狀態變化:OK - > ALARM - 原因狀態更改:閾值交叉:1個數據點(0.2)大於閾值(0.0)。 - 時間戳:週四2016年1月21日17點39分39秒UTC - AWS帳號:1234567890

閾值: - 報警處於報警狀態在公制是60秒GreaterThanThreshold 0.0。

監視公制: - MetricNamespace:AWS/ELB - MetricName:UnHealthyHostCount - 尺寸:[LoadBalancerName =生產] - 週期:60秒 - 統計:平均 - 單位:未指定

國變化的行動: - OK: - 報警:阿爾恩:AWS:SNS:美國東部-1:1234567890:DevOps的] - INSUFFICIENT_DATA:

但是,在查看我們的nginx日誌文件後,似乎AWS能夠在警報「啓動」的時候聯繫我們的每臺服務器。換句話說,我們的ec2實例在每個請求上返回了200個到/healthcheck,大約在2016年1月21日星期四17:39:39 UTC。

AWS似乎每隔30秒左右檢查一次我們的實例。

有沒有人遇到過這個問題?如果是這樣,你做了什麼呢?

+0

0.2的數據點表明它可能在警報的一段時間內不健康,或者至少需要一段時間才能健康地響應。也許更改閾值爲'> = 1'而不是'> 0'? –

回答

0

我已經更新了從幾設置...

  • 每當:UnHealthyHostCount> 0
  • 統計:平均

...到...

  • 每當:UnHealthyHostCount> = 1時
  • 統計信息:最多

如果問題仍然存在,我會更新此答案。


UPDATE:

問題繼續發生:/

我對我目前的UnHealthyHostCount報警更新多了一個設定...

連續1期(S)

... to ...

for 2 consecutive peri OD(S)

...我已經創建了一個新的報警跟蹤如果多個服務器下來一個週期...

enter image description here

,如果我的問題,我會更新這個答案繼續發生。