2016-03-15 54 views
-1

JSON數據:Spark - Scala:當json數據分佈在多行時,讀取json文件爲dataframe不起作用?

{ "blogID" : "FJY26J1333", "date" : "2012-04-01", 
"name" : "vpxnksu", "comment" : "good stuff"} 
{"blogID" : "VSAUMDFGSD", "date" : "2012-04-12", "name" : "yhftrcx", "comment" : "another comment"} 

代碼:

val dataFrame=sqlContext.read.json("sample.json") 
dataFrame.show() 

輸出:

_corrupt_record  blogID  comment   date  name 
{ "blogID" : "FJY... null  null    null  null 
"name" : "vpxnksu... null  null    null  null 
null     VSAUMDFGSD another comment 2012-04-12 yhftrcx 

我怎樣才能把它讀作兩個記錄?

回答

0

確保每行其一JSON對象,這樣在源文件中:

{ "blogID" : "FJY26J1333", "date" : "2012-04-01", "name" : "vpxnksu", "comment" : "good stuff"} 
{ "blogID" : "VSAUMDFGSD", "date" : "2012-04-12", "name" : "yhftrcx", "comment" : "another comment"} 
+0

除了您剛纔提出的問題,你沒有解決它。你可能想要使用spark來處理petabytes的多行json文本文件爲你所建議的文件格式,所以你又回過頭來問如何使用spark來讀取多行json文件。 –