Q

Spark - Scala：當json數據分佈在多行時，讀取json文件爲dataframe不起作用？

2016-03-15 54 views -1 likes

-1

JSON數據：Spark - Scala：當json數據分佈在多行時，讀取json文件爲dataframe不起作用？

{ "blogID" : "FJY26J1333", "date" : "2012-04-01", 
"name" : "vpxnksu", "comment" : "good stuff"} 
{"blogID" : "VSAUMDFGSD", "date" : "2012-04-12", "name" : "yhftrcx", "comment" : "another comment"}

代碼：

val dataFrame=sqlContext.read.json("sample.json") 
dataFrame.show()

輸出：

_corrupt_record  blogID  comment   date  name 
{ "blogID" : "FJY... null  null    null  null 
"name" : "vpxnksu... null  null    null  null 
null     VSAUMDFGSD another comment 2012-04-12 yhftrcx

我怎樣才能把它讀作兩個記錄？

2016-03-15 Himaprasoon

A

回答

0

確保每行其一JSON對象，這樣在源文件中：

{ "blogID" : "FJY26J1333", "date" : "2012-04-01", "name" : "vpxnksu", "comment" : "good stuff"} 
{ "blogID" : "VSAUMDFGSD", "date" : "2012-04-12", "name" : "yhftrcx", "comment" : "another comment"}

2016-03-15 14:41:46

+0

除了您剛纔提出的問題，你沒有解決它。你可能想要使用spark來處理petabytes的多行json文本文件爲你所建議的文件格式，所以你又回過頭來問如何使用spark來讀取多行json文件。 –

相關問題