2016-03-24 48 views
-1

我想通過火花將大約200萬條記錄加載到cassandra。 Spark有4個執行程序,cassandra在集羣中有4個節點。但大約需要20分鐘才能將所有數據保存到cassandra。任何人都可以幫助我讓這件事更快一點。Spark Cassandra寫性能

+1

這只是1.6k寫入每秒,這是非常緩慢的4個節點的C *。如果有人能夠幫助你,你需要指定更多的信息。 你是如何閱讀記錄 您正在使用什麼代碼編寫 什麼樣的硬件是 ... – RussS

+0

其實我使用的數據框來讀取記錄的節點,所有節點都7G存儲器 – franyfpk

+0

u能請讓我通常知道4節點集羣的寫入速度。 – franyfpk

回答

0

好了,所以我可以看到幾個問題與您的配置

  1. 在虛擬機中運行卡桑德拉的業績比較基準
  2. 星火不在同一位置(所以沒有數據局部性...)

一般來說,在虛擬機中安裝Cassandra是而不是建議用於性能基準,這是一個反模式。所以你的緩慢插入率是正常的,不要抱怨,你不能要求更好的性能,同時使用VM ...