2013-02-12 61 views
0

我正在處理一種情況,我想將我的數據存儲在豬腳本中的文件中。這很簡單,但我希望文件名是從數據本身派生的。所以,我有一個數據字段作爲時間戳。我想用MAX(timestamp)作爲文件名來存儲當天的所有數據。從Apache Pig中的數據獲取FileName

我知道 存儲數據的INTO '$ outputDir' 使用org.apache.pig.piggybank.storage.MultiStorage使用( '$ outputDir', '2', '無', '');

但這個變量「outputDir應作爲參數傳遞。我想與現場的導出值設置這個值。

任何指針將是非常有益的。

感謝&問候,

阿圖爾AGGARWAL

回答

0

在MultiStorage您指定的根目錄,因爲通常一個HDFS安裝由多個用戶共享,所以你不希望在任何地方的數據寫入做的。因此,你不能查nge根目錄,但你可以指定哪個字段用於在該目錄內生成目錄名稱(在你的案例2中)。 Javadoc是有幫助的,但我猜你已經看到了?

+0

謝謝馬克,我以前看過,但我提到過之後再次經歷過。正如我從API瞭解到的,似乎我必須使用兩個outputdir,並且必須在Multistorage的第二個參數中指定位置。唯一的問題是它會在基本目錄下創建另一個目錄。但我相信這不應該是一個問題。感謝您的答覆。 Atul Aggarwal – user722856 2013-02-12 19:34:53