在hadoop文件系統中,我有兩個文件,分別是X和Y.通常,hadoop會生成大小爲64 MB的文件X和Y的塊。是否有可能迫使hadoop分割這兩個文件,使得從X中32 MB創建64 MB塊並從Y中創建32 MB。換句話說,是否可以重寫文件分區的默認行爲?hadoop中的文件分割/分區
0
A
回答
0
文件分區是FileInputFormat的函數,因爲它在邏輯上取決於文件格式。您可以使用任何其他格式創建自己的輸入。所以每個文件 - 你可以做到。
在單個分割聲音中混合兩部分不同的文件會產生問題 - 因爲文件是處理的基本單元。
爲什麼你有這樣的要求? 我看到下面的要求。可以說數據局部性必須至少部分被犧牲 - 我們可以將地圖本地運行到一個文件,但不能同時運行到兩個文件。
我會建議構建某種「文件對」文件,將其放入分佈式緩存,然後在映射函數中加載來自HDFS的第二個文件。
+0
我的應用程序是這樣的,我需要一個地圖任務中的兩個文件的一部分來處理它們。如果我在地圖任務中只有一個文件的內容,那麼它不能被獨立處理。 – 2012-04-23 19:00:55
+0
我正在做你所建議的。謝謝。 – 2012-04-25 03:29:56
相關問題
- 1. Hadoop如何分割文件?
- 2. hadoop大文件沒有分割
- 3. 在J2ME中分割/分割文件
- 4. Hadoop中的客戶分區
- 5. 分割文件
- 6. 創建輸入分割(HADOOP)
- 7. Hadoop中的輸入分割定製
- 8. Java文件分割
- 9. Hadoop的自定義分區
- 10. Hadoop的分區不工作
- 11. 的Hadoop在同樣大小分割文件
- 12. 分割文件分割成多個文件
- 13. 在Hadoop中獲取輸入文件的分區ID
- 14. Python分割文本文件
- 15. 分割ASCII文本文件
- 16. 分割文本文件
- 17. Python:使用多分割分隔符分割文件
- 18. Hadoop在創建分割時忽略mapreduce.input.fileinputformat.split.maxsize
- 19. 在分隔符上分割文件
- 20. XSLT分割輸出文件 - muenchian分組
- 21. 分割我的代碼分割成多個文件在Python 3
- 22. 分割數據,並保存爲CSV全部的分割文件
- 23. Hadoop批量分析與Hadoop實時分析有什麼區別
- 24. C++中的文件分割器
- 25. 分割多個文件中的角碼
- 26. mapreduce分割和火花分割之間的區別
- 27. 分割文件路徑
- 28. 按日期分割文件
- 29. 使用java分割文件
- 30. 分割文件到PHP
在將文件轉儲到HDFS之前預處理文件可能更有意義。做你喜歡的東西是可能的,只是相當醜陋。 – rICh 2012-12-02 03:59:50