spark-cassandra-connector

1熱度

2回答

按 https://github.com/datastax/spark-cassandra-connector http://spark-packages.org/package/datastax/spark-cassandra-connector 我做的命令，但它看起來像有錯誤的結束。這些是致命的還是我需要解決它們？ [[email protected] bin]$ spark-shell

0熱度

1回答

更新列

我有一個RDD [PersonType] = [PID，CID，名字，姓氏，年齡，源，sourceType的，消息]值作爲RDD = [1000,100，Vikash，辛格，33 ，來源，來源類型，消息] 我在這裏設置了mrids的csaandra行爲[pid，cid，firstname，lastname，age，dept，mrids]。假設cassandra的值是[1000,100，vikash

1熱度

2回答

如何在從Cassandra讀取數據時控制分區數量？

我使用：卡桑德拉2.1.12 - 3節點火花1.6 - 3節點火花卡桑德拉連接器1.6 我使用卡桑德拉（未的vnode）令牌。我正在寫一個從卡桑德拉表讀取數據的簡單工作，並且顯示它的計數表有大約7000萬行，它需要15分鐘。當我正在讀取數據並檢查RDD的分區數是在21000左右的某個地方太大。如何控制這個數字？我試過splitCount,split.size.in.mbs但他們顯示了相

1熱度

1回答

DSE VM拋出錯誤在VirtualBox的

開始運行到一個錯誤與星火（可能？）損壞VM從Datastax教程卡桑德拉： https://academy.datastax.com/resources/getting-started-apache-spark-and-cassandra 一對夫婦下載嘗試後我的Mac運行El Capitan;我能夠成功下載似乎是完整的虛擬機。我使用的是5.0版本的VirtualBox * Spark.vbox的尺

3熱度

1回答

火花如何選擇cassandra節點進行讀取？

我有N臺機器上有N個節點的Cassandra羣集。另外我在每臺機器上都有spark工作人員。對於Cassandra的閱讀，我使用的是Datastax spark-cassandra連接器。當我設置工作人員（獨立模式）時，我只說他們的主人主人。在驅動程序中，我通過spark.cassandra.connection.host屬性指定了Cassandra種子。我看到很多關於數據局部性的介紹。但是我沒有

2熱度

1回答

無法使用火花卡桑德拉連接器1.5.0

問題連接卡桑德拉3.0 - 無法使用火花卡桑德拉連接器1.5.0 背景連接卡桑德拉3.0 - 我試圖從火花1.5用來連接卡桑德拉3.0。 0 通過使用設置火花卡桑德拉連接器1.5.0但我得到以下錯誤 - 作爲每DataStax火花卡桑德拉連接器document，它說，連接器火花1.5可以從火花1.5.0/1.6用於卡桑德拉3.0 0.0。你能否建議我是我想念這裏的任何一步？試過的方法我試圖從

6熱度

1回答

如何檢索從Spark UI寫入的輸出大小和記錄等度量標準？

如何在任務或作業完成後立即在控制檯（Spark Shell或Spark提交作業）上收集這些度量標準。我們使用Spark將數據從Mysql加載到Cassandra，它非常龐大（例如：〜200 GB和600M行）。當任務完成後，我們想要驗證有多少行確實激發了進程？我們可以從Spark UI獲取數字，但是我們如何從spark shell或spark-submit作業中檢索該數字（「輸出記錄已寫入」）。

0熱度

1回答

session.execute（）沒有反映在cassandra上完成火花集羣

我正在運行一個spark工作，其中一些數據從cassandra表中加載。從這些數據中，我做了一些插入和刪除語句。並執行它們。（使用的forEach） boolean deleteStatus= connector.openSession().execute(delete).wasApplied(); boolean insertStatus = connector.openSession()

2熱度

1回答

Spark Cassandra連接器使用哪些系統表？

我正在使用用戶名和密碼連接到cassandra，而不是超級用戶。使用具有火花的相同用戶給予授權例外。火花試圖連接到system.size_estimates。火花cassandra連接器使用哪些其他系統表。我需要這些信息才能從DBA獲得訪問權限。另外我想知道讀取權限是否足夠或寫入也是必需的。

1熱度

3回答

Spark流不會將數據插入到Cassandra

我有一個在客戶端模式下工作的spark-streaming代碼：它從kafka讀取數據，執行一些處理，並使用spark-cassandra-connector將數據插入cassandra。當我使用「--deploy模式集羣」，數據不能插入，並且我得到以下錯誤： Exception in thread "streaming-job-executor-53" java.lang.NoClassDef