2017-10-16 84 views
0

Mahout的XmlInputFormat可以處理gzip數據而不會覆蓋任何方法嗎?我一直在試圖解析被壓縮的wikipedia xml數據,到目前爲止一直不成功。Mahout的XmlInputFormat處理gzip壓縮文件而不重寫?

我聽說Hadoop能夠自動處理gzip文件,但我現在假設它包含在TextInputFormat類中,或者是特定於其他輸入格式的,並且不是Mahout的輸入格式。但也許我錯過了一些東西。

注:我已經能夠解析XML,但我從來沒有找到明確的答案,並且很驚訝我很難找到一個。希望有人更聰明可以啓發我&其他人。

回答

1

根據這{code}沒有編解碼器處理,沒有重寫我不認爲這是可能的。

Incase of LineRecordReader它看起來像這樣{code}並基於文件擴展名它確實應用編解碼器。

您仍然可以通過使用WikipediaPageInputFormat通過CLOUD9 {here}

給一個嘗試,他們有這個{codec}處理,檢查它是否適合你。