如何加入兩個parquet數據集？

我正在從Java中的Spark中的Parquet文件中加載兩個DataSet。我需要創建一個新的作爲兩者的組合。在常規SQL中，我會加入表格，在某些情況下應用一些條件並創建新表格。有沒有什麼辦法可以在Spark（SQL）中實現這一點？我讀過RDD可能的情況，但我並不想將數據寫回磁盤。如何加入兩個parquet數據集？

來源

2017-04-19 br0ken.pipe

sparkSQL中有典型的join操作，比如'join'，'union'。 – Pushkr

你想要什麼輸出只是加入兩個數據集或其他任何東西 –

這幾乎就像Spark SQL爲parquet設計的那樣是默認格式。

讀拼花文件是一個沒有腦子，看起來像：

val fileOne = spark.read.load(...) 
val fileTwo = spark.read.load(...)

而且在星火SQL加盟是一個沒有腦子，太（並隱藏你是否應對地板的數據集或其他任何東西）。使用join運算符。

val joined = fileOne.join(fileTwo).where(...)

就這樣，保存到數據存儲，說作爲一個大的（GER）實木複合地板的文件又是一個沒有腦子。

joined.write.save(...)

你完成了。恭喜！請致電Spark SQL和Dataset API。

來源

2017-04-19 12:46:03

如何加入兩個parquet數據集？

回答

相關問題