2013-12-12 235 views
4

我有一個4節點的RedShift集羣。RedShift節點故障切換

  1. 當其中一個節點出現故障時,整個羣集將不可用?
  2. 如果是 - 多長時間?
  3. 當羣集恢復時 - 是否返回到故障發生前的相同點,或者數據可能會從幾小時前回滾到S3快照?
  4. 我該如何模擬這種情況來自行檢查這個場景?

非常感謝!

回答

8

如果是單節點故障 - 亞馬遜將啓動一個新節點並從其他節點流數據(如果有的話,每個節點將寫入兩個不同的節點)。 在這種情況下,我們可以預計:

  1. 整個集羣的停機時間,直到新節點啓動+填充DB信息。應該在3-4分鐘左右。
  2. 經過這3-4分鐘後,羣集將返回到它發生故障之前的完全相同點。羣集將可用於讀取和寫入。
  3. 由於羣集中的數據重新分配,將會出現一些減速。

如果有多個節點發生故障,紅移將從最新的S3備份中恢復自身。 S3備份在下列情況完成:

  1. 如果自上次備份
  2. 已有8小時如果紅移是自上次備份
  3. 手動
  4. 你充滿了更多的則數據5GB當您選擇終止羣集時,可以選擇最終快照
3

它恰好發生在我的羣集 - 其中一個節點失敗。花了將近20分鐘才能在儀表板中發現(不健康顯示在「性能」選項卡中,但在「狀態」選項卡中顯示爲健康狀態)。

從初始故障1小時後,羣集將其狀態更改爲'修改',並且在另一個1小時後新節點已到位。

有在「最新事件」的消息:

在亞馬遜紅移羣集的節點「XXX」被自動在2013年12月18日11時42分UTC取代。羣集現在正常運行。

對於整個時間羣集不可用 - 沒有查詢運行,沒有進口是可能的。

數據與發生故障時的數據完全相同。

+0

謝謝!還有兩個問題:你使用2TB還是16TB節點?集羣實際使用的數據量是多少? – diemacht