單區域扳手的廣告使用了99.99%的可用性SLA。在美國的配置中,每個節點都會有三個副本,全部在愛荷華州的Council Bluffs。你能否分享一些信息來分析爲什麼99.99%(每年大約一小時的停機時間)是可信的,特別是在地理位置上的災難?我認爲谷歌已經做了徹底的分析,否則它不會宣傳SLA,但我找不到詳細的論文。Google雲端扳手單區域可用性分析
如果發生區域故障,Google會執行哪些恢復程序以及恢復時間/預期的數據丟失情況? (據我所知,多區域可能是可用的,並已看到一些定價數據,但不會在此討論這一點)。
感謝您的回答。不過,我仍然想知道更多。是否存在某種可能性/缺陷分析,表明單個區域故障應該以低於每年一小時的預期值的方式發生?如果是類似的話,獎勵點數 - 我們預計90%的概率<30分鐘。而且,在地區長期失敗的情況下,我們能期待谷歌將其他地方的事件帶回嗎?另一個相關問題:備份是否存儲在區域外?我想,僅僅是爲了另一個數據點:面向用戶的Google應用程序通常會在單區域下注嗎? – spannerfan123
對於上下文,我相信大多數工程師的直覺是不要在任何單一區域下注,因爲可能發生重大區域停電,嚴重天氣事件,爆炸等類似事件;我們很難打賭鉅額資金,我們每年只能經歷一小時的停機時間。當然,SLA在出現不可預見的問題時會提供部分補救措施,但我們仍然在進行重大投注。因此,我們想深刻理解Google對此模式的信心,以及Google爲何會在事情發生嚴重錯誤時做出反應。 – spannerfan123