我從火花中吸取了cassandra中的2億條記錄。使用spark-cassandra連接器。Cassandra在不同運行中顯示不同的結果
我遇到了以下兩個問題。對不起,這個主題只提到一個問題。
1)com.datastax.driver.core.exceptions.WriteFailureException
:在一致性LOCAL_QUORUM
寫入查詢期間卡桑德拉失敗(1個響應被要求,但只有0副本響應,1失敗)
我想出的是,具有較高複製因子優選爲3會解決這個問題。我仍然面臨同樣的問題。
我需要重新啓動羣集嗎?
2nd &重要)我跑了火花的工作做count(*)
在我的桌子上。 Spark工作沒有任何錯誤。但是,每次我的工作都給了我不同的評價。 我強烈認爲cassandra非常穩定和堅實。可能是我可能會在這裏錯過一些重要的作品。
My actual number of rows: 286,530,307
My first run result: 285,508,150
2nd Run: 285,174,293
3rd Run: 285,232,533
爲什麼我在不同的跑步中得到不同的結果?
我的鑰匙創造空間:
CREATE KEYSPACE IF NOT EXISTS db_research WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 };
我的表有28列和使用
引發這樣的結果我的錯誤中的任何一個。?即使有錯誤,它應該每次都顯示相同的次數。我錯過了什麼?
嗨,當我用nodetool修復它正在採取永遠完成。我截斷了表,然後做了nodetool修復。由於沒有數據,它是早期完成的,但是當我再次攝入數據時,它的命運也是如此。 – Srini
我也面臨同樣的問題,你可以告訴我壓實會有幫助嗎?我現在不想丟失數據。 – ashK