在Spark中高效地讀取json

我正在閱讀每個文件大小約爲10 MB的文件夾中的大約20,000個JSON文件。下面的代碼需要大約30分鐘來讀取這些文件。在Spark中高效地讀取json

有25個類型爲D4的工作節點（Azure HDInsight）。

var rawJson = sqlContext.read.json("/data/*.json")

以下是我正在使用的作業配置。

「--driverMemory」，「7克」，「--executorCores」，「3」，「--executorMemory」，「4G」，「--numExecutors」，「32」

JSON模式看起來像這樣。不同的文件在「屬性」部分包含不同數量的字段。

{ 
    "name": "AssetName", 
    "time": "2016-06-20T11:57:19.4941368-04:00", 
    "data": { 
    "type": "EventData", 
    "dataDetails": { 
     "name": "EventName", 
     "measurements": {   
     "StartTime": 61058529, 
     "EndTime": 61058737, 
     "Duration": 208, 
     "ID": 26509812, 
     "Version": 24720 
     }, 
     "properties": { 
     "identifier": "Foo", 
     "EventId": "6b613d8D-2f65-447e-bf6d-9e9133c0b803", 
     "TagGuid": "{9E4fe7c1-cf8a-4527-fd27-c0c58c0b1fed}", 
     "property1": "val1", 
     "property2": "val2", 
     "property3": "val3", 
     "property4": "False" 
     } 
    } 
    } 
}

是否有更高效的/高性能的方式來讀取這些json文件而不添加更多資源？

謝謝！

來源

2016-07-06 vijay

您使用多少臺工作機器？什麼類型的磁盤和文件系統？你知道這個模式嗎？ – zero323

@mtoto'jsonFile'很久以前就被棄用了，真的沒有理由讓它更快。 – zero323

有25臺工作機（使用HDFS文件系統的Azure HDInsights中的D4類型）。 – vijay

sqlContext.read.json方法不會將分區數作爲輸入。嘗試創建一個RDD [String]並控制並行性！

val jsonRDD = sc.textFile("/data/*.json", 100) 
val rawJson = sqlContext.read.json(jsonRDD)

來源

2016-07-07 06:31:24 rakesh

在Spark中高效地讀取json

回答

相關問題