2012-07-09 58 views
1

我有一個製表符分隔的數據輸入,由於數據大小,需要使用Apache Pig進行處理。 我已經成功地加載了數據,甚至分析了它,但我想以原始格式將輸出存儲到文件中,而不是存儲元組。以自定義格式輸出apache豬數據到文件

Sample Input 
A \t B 
A \t B 

Sample Output 
A \t B 
A \t B 

代替(A,B),(A,B)

Store D into 'output' using PigStorage('\n') 

在哪裏的問題?

+0

你目前的輸出實際上是什麼樣的?應該是PigStorage系列中的製表符? – 2012-07-09 11:11:12

+0

類似的東西:1,{(A,1),(D,1)} \ n 2,{(B,2),(C,2)}我希望獲得與輸入相同的格式。 – Pratik 2012-07-09 11:58:41

回答

0

您已加載了製表符分隔但您正在寫回的輸入新行(\ n)已分隔。

嘗試:

Store D into 'output' using PigStorage('\t'); 

Store D into 'output' using PigStorage(); -- tab is the default delimiter 

至於輸出的具體格式,我建議你看看壓平[1]運營商。

[1] http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#Flatten+Operator