如何星火解壓LZ4 JSON 2

2017-04-05 383 views 1 likes

我從https://censys.io/下載的文件xxxx.json.lz4然而，當我嘗試使用以下行的0.如何星火解壓LZ4 JSON 2

metadata_lz4 = spark.read.json("s3n://file.json.lz4")

返回我沒有得到任何數據輸出/計數讀取文件沒有結果，儘管手動解壓縮可以正常工作，並且可以導入到Spark中。

我也曾嘗試

val metadata_lz4_2 = spark.sparkContext.newAPIHadoopFile("s3n://file.json.lz4", classOf[TextInputFormat], classOf[LongWritable], classOf[Text])

其中還沒有返回結果。

我有這些文件的多個是100GBs每個這樣真正熱衷於不需要手動解壓每一個。

任何想法？

來源

2017-04-05 SChorlton

回答

根據此open issue火花LZ4解壓縮程序使用不同的規格，然後標準的LZ4解壓縮程序。

因此，直到此問題將在apache-spark中解決，您將無法使用spark LZ4來解壓縮標準LZ4壓縮文件。

我不認爲創建基於文本文件時，我們Lz4Codec實現實際上使用幀規範（http://cyan4973.github.io/lz4/lz4_Frame_format.html）。它似乎是作爲編解碼器添加的，可用於塊壓縮格式，如 SequenceFiles/HFiles /等，但不是面向的文本文件的外觀，或者是在有沒有FRAME 規格的LZ4。

因此，從根本上說，我們不能與lz4 實用程序進行互操作。區別與GPLExtras的LzoCodec和 LzopCodec非常相似，前者只是數據壓縮算法，後者則是一種實際的幀格式，可與lzop CLI實用程序互操作。

使自己可互操作的，我們需要引入一個新的框架包裝編解碼器，如LZ4FrameCodec，並且用戶可以使用，當他們想 LZ4 /解壓縮或壓縮文本數據生成可讀/ lz4cat CLI公用事業。

來源

2017-04-05 15:59:34 Yaron

相關問題

1. 支持json格式的lz4壓縮
2. 星火未壓縮JSON輸出
3. 如何壓平星火reduceByKey列表
4. 在星火2
5. lz4壓縮C++示例
6. LZ4：壓縮的壓縮圖像格式
7. 如何星火
8. 如何解釋星火結果OneHotEncoder
9. 星火XML解析
10. 在Python 2.7中讀取大型lz4壓縮的JSON數據集
11. 使用lz4進行C++壓縮，壓縮信息不如預期
12. 閱讀JSON文件星火
13. 星火SQL JSON錯誤
14. Java中的LZ4文件壓縮
15. asp.net mvc 2預覽2和星火
16. 瞭解星火監控UI
17. 閱讀嵌套JSON通過星火SQL - [AnalysisException]無法解析列
18. 星火HashingTF如何工作
19. 如何使用星火UDF
20. 星火 - 解析其中包含額外的文本JSON文件
21. 如何解決AnalysisException：在星火解決屬性（S）
22. 星火的NoSuchMethodError
23. 如何測試星火RDD
24. 星火：如何加快rdd.count（）
25. 如何在Apache的星火
26. 如何處理在星火
27. 星火據幀 - 如何訪問JSON結構
28. 星火據幀CROSS申請列解聚
29. 星火的Sql平展的Json
30. 糾正JSON格式，並以星火