通常在輸入文件中能夠部分讀取和處理Mapper功能(如在文本文件中)。是否有任何事情可以處理二進制文件(比如說圖像,序列化對象),這些文件需要所有塊在同一主機上,然後才能開始處理。Hadoop:映射二進制文件
2
A
回答
3
將您的圖像粘貼到SequenceFile中;那麼你將能夠使用map-reduce迭代地處理它們。
不太明顯:Hadoop本身並不知道任何有關文本和非文本的內容。它只有一個知道如何打開輸入流的類(hdfs將不同節點上的塊一起處理,以使它們顯示爲一個大文件)。最重要的是,您有一個Reader和一個InputFormat,它知道如何確定該流在哪裏記錄開始,結束的位置以及如何在文件中間的某處放棄下一個記錄的開頭。 TextInputFormat只是一個實現,它將換行符視爲記錄分隔符。還有一種稱爲SequenceFile的特殊格式,您可以將任意二進制記錄寫入,然後讓它們退出。使用它。
+0
現在可能希望將Avro類型轉換爲SequenceFile – rICh 2012-12-19 15:11:47
相關問題
- 1. Hadoop Streaming:映射器'包裝'二進制可執行文件
- 2. HBM映射圖/二進制
- 3. 在C中使用內存映射讀取二進制文件
- 4. 解碼二進制光柵GIS文件:垂直映射器.grd
- 5. 差異文件映射和istream的二進制
- 6. Hadoop遞歸映射
- 7. ELF可執行二進制文件中不正確的分段映射
- 8. 在C中使用內存映射來讀取二進制文件
- 9. Hadoop映射器上下文對象
- 10. Hadoop/Elastic Map Reduce使用二進制可執行文件嗎?
- 11. Hadoop程序無法找到安裝的二進制文件
- 12. Can Hadoop可以讀取任意密鑰二進制文件
- 13. Hadoop處理非常大的二進制文件
- 14. 複製二進制文件
- 15. 將十六進制字符串解碼爲4個映射到值的二進制映射的片段
- 16. HADOOP:從映射器發射矩陣
- 17. Hadoop Streaming作業與二進制輸入?
- 18. 自定義二進制輸入 - Hadoop
- 19. 映射二進制類型的主鍵(16)
- 20. EF4將varbinary(max)映射到二進制 - 代碼優先錯誤
- 21. 用於映射大型二進制輸入的深度學習
- 22. 使用uuid作爲id並映射到二進制列的grails
- 23. 持續覆蓋svn的mime到二進制映射?
- 24. 如何使用NPOCO將二進制(16)映射到Guid?
- 25. 二進制「尾巴」文件
- 26. 二進制安裝文件
- 27. 寫入二進制文件
- 28. 二進制文件I/O
- 29. 編譯二進制文件
- 30. 閱讀二進制文件
你有點兒問這個問題。我在上一個問題中發佈的答案在某種程度上解決了這個問題:http://stackoverflow.com/questions/3012121/hadoop-processing-large-serialized-objects – 2010-06-15 14:51:44