我從https://censys.io/
下載的文件xxxx.json.lz4
然而,當我嘗試使用以下行的0.如何星火解壓LZ4 JSON 2
metadata_lz4 = spark.read.json("s3n://file.json.lz4")
返回我沒有得到任何數據輸出/計數讀取文件沒有結果,儘管手動解壓縮可以正常工作,並且可以導入到Spark中。
我也曾嘗試
val metadata_lz4_2 = spark.sparkContext.newAPIHadoopFile("s3n://file.json.lz4", classOf[TextInputFormat], classOf[LongWritable], classOf[Text])
其中還沒有返回結果。
我有這些文件的多個是100GBs
每個這樣真正熱衷於不需要手動解壓每一個。
任何想法?