0
Mahout的XmlInputFormat可以處理gzip數據而不會覆蓋任何方法嗎?我一直在試圖解析被壓縮的wikipedia xml數據,到目前爲止一直不成功。Mahout的XmlInputFormat處理gzip壓縮文件而不重寫?
我聽說Hadoop能夠自動處理gzip文件,但我現在假設它包含在TextInputFormat類中,或者是特定於其他輸入格式的,並且不是Mahout的輸入格式。但也許我錯過了一些東西。
注:我已經能夠解析XML,但我從來沒有找到明確的答案,並且很驚訝我很難找到一個。希望有人更聰明可以啓發我&其他人。