2012-03-10 68 views
0

我們正在2個大型EC2實例上使用2個cassandra節點的集羣。他們每個人都有大約65G的使用數據。 (Dev和Production的設置相同)。Cassandra在EC2上同時讀取和寫入期間崩潰

我們遇到的問題是在生產寫入期間--CPU負載變爲40+(2核心機器)並且最終機器變得不可用並且需要重新啓動。我嘗試了多種「調整策略」,例如減少總可記憶空間,改變年輕一代伊甸園空間與生存空間的比率,將較大的對象從伊甸園空間直接複製到老一代,優化壓實以更頻繁地運行, sstables(我注意到,在崩潰期間磁盤利用率幾乎沒有,所以我試圖緩解內存使用)。

看着cassandra system.log,我無法看到任何ERRORS或WARNING。 只有在崩潰期間顯示的是StatusLogger輸出。

如果我在開發集羣上運行寫入,一切運行平穩 - 無錯誤,負載最大爲1.5-2。 如果我重新啓動2個生產實例,我可以在崩潰發生之前運行一段時間的讀寫操作,否則,如果機器已經運行了2天以上,崩潰會在幾分鐘內發生。

任何建議,想法將不勝感激。

感謝

回答