Hadoop和jgit在java.io.file和dataoutputstream之間進行轉換

Hello我試圖在git存儲庫上運行map reduce作業。我想要使用地圖作業首先同時將所有存儲庫克隆爲hdfs，然後再對這些文件進行縮減作業。我遇到了一個問題，我不知道如何編寫庫文件到hdfs。我見過寫單個文件的例子，但那些文件在映射器之外，只寫單個文件。 jgit api只公開從文件繼承的filerepository結構，但hdfs使用寫入爲數據輸出流的路徑。有沒有一種很好的方法可以在兩者之間進行轉換，或者有任何類似的例子嗎？Hadoop和jgit在java.io.file和dataoutputstream之間進行轉換

感謝

來源

2013-03-21 user1573235

輸入數據到Hadoop的映射器必須在HDFS，而不是本地計算機或比HDFS任何其他的。 Map-Reduce作業不適用於將數據從一個地方遷移到另一個地方。它們用於處理HDFS上存在的大量數據。我確信你的存儲庫數據不是HDFS，如果是的話你不需要在第一時間執行任何操作。所以請記住，map-reduce作業用於處理HDFS（Hadoop文件系統）上已經存在的大量數據。

來源

2013-03-21 17:09:55

Hadoop和jgit在java.io.file和dataoutputstream之間進行轉換

回答

相關問題