2012-08-15 61 views
1

我有一個文件,其中每一行都是一條記錄。我想要在某個字段中具有相同值的所有記錄(如果字段A調用)去同一個映射器。我聽說這個被稱爲地圖邊加入,我也聽說它很容易,如果該文件中的記錄是由我稱之爲場A.Hadoop Streaming的地圖端連接

如果它會更容易整理,數據可能分佈跨多個文件,但每個文件都按字段A排序。

是對不起?我如何在流媒體中執行此操作?我正在使用Python。假設它只是我用來啓動Hadoop的命令的一部分?

非常感謝您的幫助!

+0

我仍然很想知道答案。我應該澄清一切嗎? – Andrew 2012-08-17 14:24:51

回答

0

什麼是真正的理由只想要某些記錄去某些mappers?如果你想從這裏得到最終結果是3個輸出文件(其中一個具有所有A,另一個具有所有B,最後具有全部C),那麼可以使用多個縮減器來完成。需要知道你真正想要完成什麼。