spark-cassandra-connector

    1熱度

    2回答

    按 https://github.com/datastax/spark-cassandra-connector http://spark-packages.org/package/datastax/spark-cassandra-connector 我做的命令,但它看起來像有錯誤的結束。這些是致命的還是我需要解決它們? [[email protected] bin]$ spark-shell

    0熱度

    1回答

    我有一個RDD [PersonType] = [PID,CID,名字,姓氏,年齡,源,sourceType的,消息]值作爲RDD = [1000,100,Vikash,辛格,33 ,來源,來源類型,消息] 我在這裏設置了mrids的csaandra行爲[pid,cid,firstname,lastname,age,dept,mrids]。假設cassandra的值是[1000,100,vikash

    1熱度

    2回答

    我使用: 卡桑德拉2.1.12 - 3節點 火花1.6 - 3節點 火花卡桑德拉連接器1.6 我使用卡桑德拉(未的vnode)令牌。 我正在寫一個從卡桑德拉表讀取數據的簡單工作,並且顯示它的計數表有大約7000萬行,它需要15分鐘。 當我正在讀取數據並檢查RDD的分區數是在21000左右的某個地方太大。如何控制這個數字? 我試過splitCount,split.size.in.mbs但他們顯示了相

    1熱度

    1回答

    開始運行到一個錯誤與星火(可能?)損壞VM從Datastax教程卡桑德拉: https://academy.datastax.com/resources/getting-started-apache-spark-and-cassandra 一對夫婦下載嘗試後我的Mac運行El Capitan;我能夠成功下載似乎是完整的虛擬機。我使用的是5.0版本的VirtualBox * Spark.vbox的尺

    3熱度

    1回答

    我有N臺機器上有N個節點的Cassandra羣集。另外我在每臺機器上都有spark工作人員。對於Cassandra的閱讀,我使用的是Datastax spark-cassandra連接器。當我設置工作人員(獨立模式)時,我只說他們的主人主人。在驅動程序中,我通過spark.cassandra.connection.host屬性指定了Cassandra種子。我看到很多關於數據局部性的介紹。但是我沒有

    2熱度

    1回答

    問題連接卡桑德拉3.0 - 無法使用火花卡桑德拉連接器1.5.0 背景連接卡桑德拉3.0 - 我試圖從火花1.5用來連接卡桑德拉3.0。 0 通過使用設置火花卡桑德拉連接器1.5.0但我得到以下錯誤 - 作爲每DataStax火花卡桑德拉連接器document,它說,連接器火花1.5可以從火花1.5.0/1.6用於卡桑德拉3.0 0.0。 你能否建議我是我想念這裏的任何一步? 試過的方法 我試圖從

    6熱度

    1回答

    如何在任務或作業完成後立即在控制檯(Spark Shell或Spark提交作業)上收集這些度量標準。 我們使用Spark將數據從Mysql加載到Cassandra,它非常龐大(例如:〜200 GB和600M行)。當任務完成後,我們想要驗證有多少行確實激發了進程?我們可以從Spark UI獲取數字,但是我們如何從spark shell或spark-submit作業中檢索該數字(「輸出記錄已寫入」)。

    0熱度

    1回答

    我正在運行一個spark工作,其中一些數據從cassandra表中加載。從這些數據中,我做了一些插入和刪除語句。 並執行它們。 (使用的forEach) boolean deleteStatus= connector.openSession().execute(delete).wasApplied(); boolean insertStatus = connector.openSession()

    2熱度

    1回答

    我正在使用用戶名和密碼連接到cassandra,而不是超級用戶。 使用具有火花的相同用戶給予授權例外。 火花試圖連接到system.size_estimates。 火花cassandra連接器使用哪些其他系統表。 我需要這些信息才能從DBA獲得訪問權限。 另外我想知道讀取權限是否足夠或寫入也是必需的。

    1熱度

    3回答

    我有一個在客戶端模式下工作的spark-streaming代碼:它從kafka讀取數據,執行一些處理,並使用spark-cassandra-connector將數據插入cassandra。 當我使用「--deploy模式集羣」,數據不能插入,並且我得到以下錯誤: Exception in thread "streaming-job-executor-53" java.lang.NoClassDef