1
我有一個文件,其中每一行都是一條記錄。我想要在某個字段中具有相同值的所有記錄(如果字段A調用)去同一個映射器。我聽說這個被稱爲地圖邊加入,我也聽說它很容易,如果該文件中的記錄是由我稱之爲場A.Hadoop Streaming的地圖端連接
如果它會更容易整理,數據可能分佈跨多個文件,但每個文件都按字段A排序。
是對不起?我如何在流媒體中執行此操作?我正在使用Python。假設它只是我用來啓動Hadoop的命令的一部分?
非常感謝您的幫助!
我仍然很想知道答案。我應該澄清一切嗎? – Andrew 2012-08-17 14:24:51