如何阻止AWS CloudWatch UnHealthHostCount虛假警報？

我們得到這個消息（通過電子郵件），每天數次：如何阻止AWS CloudWatch UnHealthHostCount虛假警報？

報警：「ELB-生產UnHealthHostCount」美國 - 弗吉尼亞N.

你是因爲您的Amazon CloudWatch的警報收到這封電子郵件「elb-production-UnHealthHostCount」在美國 - 北維吉尼亞州地區有進入了ALARM狀態，因爲「閾值交叉：1個數據點（0.2）」大於閾值（0.0）。在「2016年1月21日星期四 17:39:39 UTC」。

查看該警報在AWS管理控制檯： https://console.aws.amazon.com/cloudwatch/home?region=us-east-1#s=Alarms&alarm=elb-production-UnHealthHostCount

警報詳細信息： - 名稱：ELB-生產UnHealthHostCount - 說明： - 狀態變化：OK - > ALARM - 原因狀態更改：閾值交叉：1個數據點（0.2）大於閾值（0.0）。 - 時間戳：週四2016年1月21日17點39分39秒UTC - AWS帳號：1234567890

閾值： - 報警處於報警狀態在公制是60秒GreaterThanThreshold 0.0。

監視公制： - MetricNamespace：AWS/ELB - MetricName：UnHealthyHostCount - 尺寸：[LoadBalancerName =生產] - 週期：60秒 - 統計：平均 - 單位：未指定

國變化的行動： - OK： - 報警：阿爾恩：AWS：SNS：美國東部-1：1234567890：DevOps的] - INSUFFICIENT_DATA：

但是，在查看我們的nginx日誌文件後，似乎AWS能夠在警報「啓動」的時候聯繫我們的每臺服務器。換句話說，我們的ec2實例在每個請求上返回了200個到/healthcheck，大約在2016年1月21日星期四17:39:39 UTC。

AWS似乎每隔30秒左右檢查一次我們的實例。

有沒有人遇到過這個問題？如果是這樣，你做了什麼呢？

來源

2016-01-21 Paul

0.2的數據點表明它可能在警報的一段時間內不健康，或者至少需要一段時間才能健康地響應。也許更改閾值爲'> = 1'而不是'> 0'？ –

我已經更新了從幾設置...

每當：UnHealthyHostCount> 0
統計：平均

...到...

每當：UnHealthyHostCount> = 1時
統計信息：最多

如果問題仍然存在，我會更新此答案。

UPDATE：

問題繼續發生：/

我對我目前的UnHealthyHostCount報警更新多了一個設定...

連續1期（S）

... to ...

for 2 consecutive peri OD（S）

...我已經創建了一個新的報警跟蹤如果多個服務器下來一個週期...

，如果我的問題，我會更新這個答案繼續發生。

來源

2016-01-26 21:10:39 Paul

如何阻止AWS CloudWatch UnHealthHostCount虛假警報？

回答

相關問題