2017-04-19 61 views
1

我正在從Java中的Spark中的Parquet文件中加載兩個DataSet。我需要創建一個新的作爲兩者的組合。在常規SQL中,我會加入表格,在某些情況下應用一些條件並創建新表格。有沒有什麼辦法可以在Spark(SQL)中實現這一點?我讀過RDD可能的情況,但我並不想將數據寫回磁盤。如何加入兩個parquet數據集?

+0

sparkSQL中有典型的join操作,比如'join','union'。 – Pushkr

+0

你想要什麼輸出只是加入兩個數據集或其他任何東西 –

回答

2

這幾乎就像Spark SQL爲parquet設計的那樣是默認格式。

讀拼花文件是一個沒有腦子,看起來像:

val fileOne = spark.read.load(...) 
val fileTwo = spark.read.load(...) 

而且在星火SQL加盟是一個沒有腦子,太(並隱藏你是否應對地板的數據集或其他任何東西)。使用join運算符。

val joined = fileOne.join(fileTwo).where(...) 

就這樣,保存到數據存儲,說作爲一個大的(GER)實木複合地板的文件又是一個沒有腦子。

joined.write.save(...) 

你完成了。恭喜!請致電Spark SQLDataset API