recordreader

    0熱度

    1回答

    我想用自己的FileInputFormat與自定義RecordReader讀取csv數據到<Long><String>對。 所以我創建的類MyTextInputFormat: import java.io.IOException; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import

    2熱度

    1回答

    Hadoop Mapreduce CombineFileInputFormat在閱讀大量小文件時效果很好,但我一直注意到有時候作業失敗,出現以下情況例外, 了java.lang.RuntimeException:在 org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFi

    0熱度

    2回答

    這是我的代碼使用variours精氨酸 import java.io.File; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSy

    0熱度

    1回答

    我正在使用傑克遜來處理JSON在Hadoop中的塊。這意味着,它們是大塊文件(在我的問題中它是128M但它並不重要)。 出於效率的原因,我需要它流式傳輸(不可能在內存中構建整個樹)。 我正在使用JsonParser和ObjectMapper的混合來讀取我的輸入。 目前,我正在使用不可拆分的自定義InputFormat,因此我可以閱讀我的整個JSON。 的(有效)JSON的結構是這樣的: [ { "

    1熱度

    1回答

    我有隻與7ZX和keka在Mac打開一個密碼保護的zip文件打開密碼保護的zip文件。 我必須在java中編寫代碼來解壓密碼保護的zip文件,然後對其進行一些操作。 我已經嘗試在apache.commons.compress中使用sevenz api,但我無法壓縮它得到異常, 不好的7z簽名。是否有解壓zip文件的任何API支持? unzip -P [email protected] abcd.z

    0熱度

    2回答

    我最近開始搞亂Hadoop並創建了自己的輸入格式來處理pdf。 出於某種原因,我的自定義RecordReader類沒有它的初始化方法調用。 (使用sysout檢查它,因爲我沒有設置調試環境) 我在Windows 7 32bit上運行hadoop 2.2.0。做我的紗罐子調用,Hadoop的罐子在Windows下竊聽...... import ... public class PDFInputF

    1熱度

    1回答

    我已經實現了一個自定義組合文件輸入格式,以創建由文件組組成的Map任務的分割。我創建了一個解決方案,通過記錄閱讀器傳遞分割的每個文件,一切都很好。現在我正試圖將整個文件集傳遞給map函數。 這是我記錄的讀者代碼: public class MultiImagesRecordReader extends RecordReader<Text[], BytesWritable[]> { p

    3熱度

    4回答

    我們有一個系統接收指定目錄上的檔案,並定期啓動一個mapreduce作業,打開檔案並處理檔案中的文件。爲避免下次重新處理相同的檔案,我們掛在RecordReader的close()方法上,以便在讀入最後一個條目後刪除它。 這種方法的問題(我們認爲)是,如果一個特定的映射失敗,下一個映射器再次嘗試它會發現原始文件已被第一個記錄讀取器刪除,並且彈出。我們認爲,要走的路是延遲,直到所有的映射和​​縮減完

    1熱度

    1回答

    我有hdfs集羣,它以最終用戶選擇的壓縮/加密格式存儲大型csv文件。 對於壓縮,加密,我創建了一個包裝輸入流,以壓縮/加密的形式將數據提供給HDFS。壓縮格式使用GZ,加密格式爲AES256。 在HDFS上將4.4GB csv文件壓縮爲40MB。 現在我有一起處理多個壓縮文件的mapreduce作業(java)。 MR作業使用FileInputFormat。 當通過映射器計算分割時,4.4GB壓