2013-03-21 50 views
0

Hello我試圖在git存儲庫上運行map reduce作業。我想要使​​用地圖作業首先同時將所有存儲庫克隆爲hdfs,然後再對這些文件進行縮減作業。我遇到了一個問題,我不知道如何編寫庫文件到hdfs。我見過寫單個文件的例子,但那些文件在映射器之外,只寫單個文件。 jgit api只公開從文件繼承的filerepository結構,但hdfs使用寫入爲數據輸出流的路徑。有沒有一種很好的方法可以在兩者之間進行轉換,或者有任何類似的例子嗎?Hadoop和jgit在java.io.file和dataoutputstream之間進行轉換

感謝

回答

1

輸入數據到Hadoop的映射器必須在HDFS,而不是本地計算機或比HDFS任何其他的。 Map-Reduce作業不適用於將數據從一個地方遷移到另一個地方。它們用於處理HDFS上存在的大量數據。我確信你的存儲庫數據不是HDFS,如果是的話你不需要在第一時間執行任何操作。所以請記住,map-reduce作業用於處理HDFS(Hadoop文件系統)上已經存在的大量數據。

相關問題