2016-06-14 69 views
1

我在獨立模式下運行Spark,現在我想使用數據進行處理但是我必須複製所有節點中的相同路徑。現在我決定使用cassandra文件系統(CFS)共享所有節點之間的數據。 但是,如何運行我的spark工作以在另一個節點中使用cassandra keyspace/table數據? 如何讓所有節點都可以訪問Cassandra表?spark與cassandra文件系統

+0

你能請詳細說明什麼是你想達到什麼目的?它是否使用spark工作將數據保存到cassandra數據庫中?另外,作爲分佈式數據庫,cassandra本質上基於複製因素在所有節點之間共享數據。 –

+0

我有3個cassandra節點(機器),我想用'sc.cassandraTable(「kv」,「tb」)來讀取spark中的數據,現在,我該如何設置sparkconf? '新的SparkConf(true) .set(「spark.cassandra.connection.host」,「哪個節點ip」)' 哪個cassandra Ip必須被替換? – Hamid

+0

使用逗號分隔的所有三個IP。 –

回答

0

你應該給一個用逗號分隔的初始聯繫點列表。連接器將讀取羣集的元數據以查找cassandra羣集中的所有節點。

val conf = new SparkConf(true) 
    .set("spark.cassandra.connection.host", "192.168.123.10,192.168.123.110") 

指爲參數的詳細信息 - spark cassandra connector doc