2017-06-06 48 views
3

單區域扳手的廣告使用了99.99%的可用性SLA。在美國的配置中,每個節點都會有三個副本,全部在愛荷華州的Council Bluffs。你能否分享一些信息來分析爲什麼99.99%(每年大約一小時的停機時間)是可信的,特別是在地理位置上的災難?我認爲谷歌已經做了徹底的分析,否則它不會宣傳SLA,但我找不到詳細的論文。Google雲端扳手單區域可用性分析

如果發生區域故障,Google會執行哪些恢復程序以及恢復時間/預期的數據丟失情況? (據我所知,多區域可能是可用的,並已看到一些定價數據,但不會在此討論這一點)。

回答

1

Spanner自動複製數據以實現高可用性。如您所述,區域實例有三個完整的數據副本。關鍵在於它們在具有獨立電源,製冷,網絡等區域內的三個zones中進行復制。區域通常彼此獨立故障,因此即使一個區域出現故障,您的其他副本也可以繼續提供讀取和寫入操作。多區域通過跨區域複製提供更高的可用性。

區域故障非常罕見,對您的應用程序而言是透明的; Cloud Spanner會自動將請求重新路由到能夠爲請求提供服務的副本。一個地區數據丟失的情況將更爲罕見。谷歌需要many measures對抗災難。

更進一步,我們將公開託管備份,但這些仍將存儲在Google數據中心內。如果您想管理自己的備份,我們還在研究Dataflow連接器以幫助您導入/導出數據。

+0

感謝您的回答。不過,我仍然想知道更多。是否存在某種可能性/缺陷分析,表明單個區域故障應該以低於每年一小時的預期值的方式發生?如果是類似的話,獎勵點數 - 我們預計90%的概率<30分鐘。而且,在地區長期失敗的情況下,我們能期待谷歌將其他地方的事件帶回嗎?另一個相關問題:備份是否存儲在區域外?我想,僅僅是爲了另一個數據點:面向用戶的Google應用程序通常會在單區域下注嗎? – spannerfan123

+0

對於上下文,我相信大多數工程師的直覺是不要在任何單一區域下注,因爲可能發生重大區域停電,嚴重天氣事件,爆炸等類似事件;我們很難打賭鉅額資金,我們每年只能經歷一小時的停機時間。當然,SLA在出現不可預見的問題時會提供部分補救措施,但我們仍然在進行重大投注。因此,我們想深刻理解Google對此模式的信心,以及Google爲何會在事情發生嚴重錯誤時做出反應。 – spannerfan123