1
在我的Pig腳本中,有一箇中間步驟,我想將生成的服務器主機名映射到應用程序名稱。我有一個文本文件(約10k記錄)從這個映射數據庫創建。但我不確定如何將這個文本文件分發到pig並在運行時訪問它們。請幫忙..!!Apache Pig - 如何維護我的python UDF訪問的分佈式查找表?
在我的Pig腳本中,有一箇中間步驟,我想將生成的服務器主機名映射到應用程序名稱。我有一個文本文件(約10k記錄)從這個映射數據庫創建。但我不確定如何將這個文本文件分發到pig並在運行時訪問它們。請幫忙..!!Apache Pig - 如何維護我的python UDF訪問的分佈式查找表?
這是使用Pig的fragment-replicate join算法的理想用例。您可以將查找表加載爲Pig關係,並將其與您的實際數據相加。
A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';
請注意,您希望加載到內存中的表應位於連接的右側,如上所示。
謝謝..它完全按預期工作。謝謝..!!! :) – Rahav 2015-02-10 03:20:19