2015-04-01 153 views
0

請幫我把文件保存..我有以下情形 - 輸入文件..阿帕奇豬 - 基於日期列

ID name Time-stamp 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 20-MAR-2015 01:02:00 
1234 kiran 11-MAR-2015 21:12:31 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 30-MAR-2015 01:02:31 
1234 kiran 22-MAR-2015 01:11:00 
1234 kiran 30-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:00 

現在我需要編寫一個基於在時間戳列輸出的日期輸出文件將是:

user/username/DATE/part-m-000000 

- DATE是可變的文件夾名稱應該是

user/username/18-MAR-2015/part-m-000000 

上述文件包含所有VA單日攻略

1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 01:02:31 
1234 kiran 18-MAR-2015 11:02:31 
1234 kiran 18-MAR-2015 01:02:31 

另一個文件夾的名稱應該是

user/username/19-MAR-2015/part-m-000000 

上述文件包含一個日期的所有值

1234 kiran 19-MAR-2015 01:02:31 
1234 kiran 19-MAR-2015 01:02:00 

另一個文件夾的名稱應該是

user/username/20-MAR-2015/part-m-000000 

以上fil E包含在燒毛日期的所有值

1234 kiran 20-MAR-2015 01:02:00 

另一個文件夾的名稱應該是

user/username/22-MAR-2015/part-m-000000 

上述文件包含燒毛日期

1234基蘭22-MAR-2015 01:11所有的值:00

另一個文件夾的名稱應該是

user/username/30-MAR-2015/part-m-000000 

上述文件包含燒毛日期的所有值

1234 kiran 30-MAR-2015 01:02:31 
1234 kiran 30-MAR-2015 01:02:31 

請幫我

謝謝。SREE

回答

0

下面的步驟應該幫助 -

  1. 使用日期函數來將時間戳轉換爲所需的格式。
  2. 組按日期
  3. 弄平組
  4. 保存的#3使用org.apache.pig.piggybank.storage.MultiStorage結果。