我對這個故事中的不同角色有點困惑:PySpark,SparkSQL,Cassandra和pyspark-cassandra連接器。如何使用PySpark,SparkSQL和Cassandra?
據我瞭解,Spark的發展很快,SparkSQL現在是一個關鍵組件(使用'dataframes')。顯然,如果沒有SparkSQL,絕對沒有理由工作,特別是連接到Cassandra時。
所以我的問題是:需要什麼組件,以及如何以最簡單的方式將它們連接在一起?
隨着spark-shell
在斯卡拉我可以做簡單的
./bin/spark-shell --jars spark-cassandra-connector-java-assembly-1.6.0-M1-SNAPSHOT.jar
然後
import org.apache.spark.sql.cassandra.CassandraSQLContext
val cc = new CassandraSQLContext(sc)
cc.setKeyspace("mykeyspace")
val dataframe = cc.sql("SELECT count(*) FROM mytable group by beamstamp")
我怎麼能做到這一點與pyspark
?
這裏有幾個子問題以及我收集到的部分答案(如果我錯了,請更正)。
是需要pyspark-casmandra(我不這麼認爲 - 我不明白什麼是擺在首位做)
我需要使用
pyspark
或者我可以用我的定期jupyter notebook
並自己導入必要的東西?
好的謝謝。是否有可能(如在Scala中)通過SQL API直接訪問表? –
據我所知,這是不可能的。你可以像往常一樣'registerTempTable'。此外,沒有相當於'CassandraRDD'。 – zero323
好的。我稍後會發布一些代碼,以確保我做對了。 –