星火卡桑德拉迭代查詢

我申請通過星火卡桑德拉連接器執行以下操作：星火卡桑德拉迭代查詢

val links = sc.textFile("linksIDs.txt") 
links.map(link_id => 
{ 
val link_speed_records = sc.cassandraTable[Double]("freeway","records").select("speed").where("link_id=?",link_id) 
average = link_speed_records.mean().toDouble 
})

我想問一下，如果有申請查詢的上述順序更有效地讓路，我總是唯一的參數更改是'link_id'。

'link_id'值是我Cassandra'records'表的唯一分區鍵。我正在使用Cassandra v.2.0.13，Spark v.1.2.1和Spark-Cassandra Connector v.1.2.1

我在考慮是否可以打開Cassandra會話來應用這些查詢和仍然將'link_speed_records'作爲SparkRDD。

來源

2015-07-12 raschild

我很好奇你是如何能夠運行您發佈沒有得到一個NPE的代碼由於不被提供給工人從RDD內SC。 – Metropolis

所有請求（查詢）都是使用spark上下文通過spark驅動程序發送的。工作人員全權負責計算CassandraRDD的結果。因此，工人不需要使用sc。 – raschild

使用joinWithCassandra方法使用鍵的RDD將數據從Cassandra表中提取出來。問題中提供的方法相對而言非常昂貴，並且不能很好地作爲並行請求。

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/2_loading.md#performing-efficient-joins-with-cassandra-tables-since-12

來源

2015-07-12 09:18:08 RussS

非常感謝！情況正是如此，延遲足夠高，並且對並行請求沒有太大意義。 – raschild

星火卡桑德拉迭代查詢

回答

相關問題