我有一個存儲在S3存儲桶中的大型數據集,但它不是一個單獨的大文件,而是由許多(確切的說是113K)單個JSON文件組成的,其中每個包含100-1000個觀察值。這些觀察不是最高級別的,但需要在每個JSON中進行一些導航才能訪問。 即 json [「interact」]是一個詞典列表。PySpark:如何閱讀許多JSON文件,每個文件有多個記錄
我試圖利用Spark/PySpark(版本1.1.1)解析並減少這些數據,但是我找不到正確的方法將它加載到RDD中,因爲它既不是所有記錄>一個文件(在這種情況下,我會使用sc.textFile,雖然增加了JSON的複雜性),但每個記錄>一個文件(在這種情況下,我會使用sc.wholeTextFiles)。
是我最好的選擇使用sc.wholeTextFiles,然後使用一個地圖(或在這種情況下flatMap?)拉多個觀測從單個文件名鍵存儲到他們自己的密鑰?還是有更簡單的方法來做到這一點,我失蹤了?
我已經在這裏看到了答案,建議在通過sc.textFile加載的所有文件上使用json.loads(),但它看起來不像那樣對我有效,因爲JSON不是簡單的最高級別名單。
我遇到了類似的問題。請讓我知道是否有解決方案。我剛開始嘗試pyspark,並且我在s3中有很多json文件需要分析 – user1652054 2015-04-16 04:25:41