我剛剛開始使用spark-cassandra連接器,並遇到以下問題:我有一部分位於cassandra中的數據集,部分位於HDFS(同一確切模式)。我想創建一套這兩套的UnionRDD,然後從那裏開始。Cassandra /拼花聯合RDD
我到目前爲止是這樣的代碼:
DataFrame df = sqlContext.parquetFile("foo.parquet");
JavaRDD cassandraRDD = (JavaRDD)javaFuntions(sc).cassandraTable("foo_ks","foo_table");
DataFrame cassandraDF = sqlContext.applySchema(cassandraRDD,df.schema());
我得到一個運行時錯誤說CassandraRow不能轉換爲spark.sql.Row,從applySchema電話來了...這是並非全部都令人驚訝。什麼纔是正確的方式來實現這個工作? (我的最終目標是聯盟df & cassandraDF)。
我想用Spark 1.3.1和Cassandra-spark的主分支構建。
如果您收到異常,則首先打印模式並與cassandraRDD的字段進行比較。 – Kaushal