2011-01-20 49 views
8

我們試圖使用AppFabric分佈式緩存。在使用非域名服務器進行大量反覆操作後,我們終於將它們放入域中,安裝/設置變得更加簡單。我們通過大量的錯誤來解決問題,其中大部分錯誤似乎微不足道,包括AppFabric中的一些測試或更多描述性錯誤消息。 「臨時錯誤」並不能解釋很多...AppFabric Cache看起來不穩定

但仍有問題。

我們設置了3臺服務器,其中之一是「主角」。我們終於獲得了緩存工作,我們通過將網絡負載平衡器指向一臺服務器來確認這一點,確認我們可以在一臺服務器上設置緩存並在另一臺服務器上檢索。

然後我重新啓動所有服務器上的AppFabric緩存服務,並突然失效。 GET-CacheHost說,他們都在漲,但我們得到這樣的例外:通過簡單地重新啓動服務

ErrorCode<ERRCA0018>:SubStatus<ES0001>:The request timed out 
ErrorCode<ERRCA0017>:SubStatus<ES0001>:There is a temporary failure. Please retry later. 

爲什麼會發生這種錯誤情況發生?
AppFabric Cache真的準備好用於生產嗎?
如果服務器脫機會發生什麼情況?長時間超時?
我們是否依賴於「主導」服務器啓動?

我懷疑它會在5-10分鐘的R &R之後備份。有時它似乎會自動回來。

更新:幾分鐘後它確實出現了。我們現在已經通過從羣集中刪除一臺服務器進行了測試,結果導致長時間超時並最終導致異常。

+0

爲什麼到現在爲止需要這麼長時間才能恢復?在一臺服務器上。無論技術原因如何,它肯定會讓我懷疑信任整個平臺 – 2013-02-23 09:53:15

回答

7

我們已經調試了一段時間,我分享了迄今爲止我們發現的東西。

  • Windows 2008上的UAC實際上阻止了對本地計算機的訪問,因此對本地計算機的命令將失敗。以管理員身份啓動PowerShell或完全關閉UAC以繞過。
  • 只需手動更改配置文件將不起作用。您需要使用導出和導入命令。
  • 防火牆是安裝程序打開222 *端口範圍時的主要問題,但PowerShell工具使用其他Windows服務。關閉所有服務器上的防火牆(不建議)解決了這個問題。
  • 如果從集羣中刪除服務器,則在集羣可以再次運行之前會有一個初始超時。
  • 重啓後,羣集使用2-5分鐘恢復。
  • 如果重新啓動且一臺服務器無法訪問,則啓動時間會增加。
  • 如果持有共享文件共享的服務器無法訪問,服務將無法啓動。我們試圖通過給每個服務器一個私有共享來解決這個問題。
+0

如果我理解正確,使用SQL配置提供程序將導致集羣管理由SQL Server完成,而不是由「主導主機」完成,因此它可能會減少您遇到的問題的數量? [http://msdn.microsoft.com/en-us/library/ee790934。aspx#sectionSection1]。 IIRC,這應該允許您能夠聯繫任何一臺緩存主機來訪問緩存集羣。 – jamiebarrow 2011-08-17 10:15:31