我是新來的spark和scala。我想讀取包含json文件的目錄。該文件具有名爲「EVENT_NAME」的屬性,可以有20個不同的值。我需要根據屬性值分開事件。即EVENT_NAME = event_A事件。將這些寫入配置單元外部表結構中,例如:/ apps/hive/warehouse/db/event_A/dt = date/hour = hr火花數據框被寫入分區
這裏我有20個不同的表,用於所有事件類型和與每個事件相關的數據應該去到各自的桌子。 我已經設法編寫了一些代碼,但需要幫助才能正確寫入我的數據。
{
import org.apache.spark.sql._
import sqlContext._
val path = "/source/data/path"
val trafficRep = sc.textFile(path)
val trafficRepDf = sqlContext.read.json(trafficRep)
trafficRepDf.registerTempTable("trafficRepDf")
trafficRepDf.write.partitionBy("EVENT_NAME").save("/apps/hive/warehouse/db/sample")
}
最後一行創建分區輸出,但不是我確切需要它。請建議我怎樣才能得到它正確或任何其他代碼來做到這一點。
數據沒有日期和時間信息在裏面。我需要在外部提供它。 – Anup