2017-08-04 45 views
-1

我有一個單一的文件中的以下數據豬:用於編寫記錄類型在一個文件到多個輸出

"HD",003498,"20160913:17:04:10","D3ZYE",1 
"EH","XXX-1985977-1",1,"01","20151215","20151215","20151229","20151215","2304",,,"36-126481000",1340.74,61808.00,1126.62,0.00,214.12,0.00,0.00,0.00,"30","20151229","00653845",,,"PARTS","001","ABI","20151215","Y","Y","N","36-126481000", 

我想用豬來讀這個單一的文件,然後將其分離到不同基於第一列 在相同的光文件,我一直在尋找一種方式,首先把記錄作爲下面的結構:

recTypCd,recordData

再後來就只是把recordData爲CSV記錄

在這一點上,之後我將它們存儲在同一個記錄類型不同的文件,我可以簡單地他們使用CSV SERDE加載到自己的外部HIVE表

+1

已經爲您提供了Hive解決方案。 –

+0

@DuduMarkovitz,這個練習是爲了在定義HIVE構造之前先允許將文件分割成多個文件..我正在尋找方法爲PIG提供一個過濾標準,以便只輸出(或DUMP)每個記錄類型的記錄在幾個不同的輸出 –

+0

鍛鍊? (1)您仍然沒有接受您的上一個問題的解決方案https://stackoverflow.com/questions/45445000/create-external-hive-table-from-files-with-different-record-formats-for-a -csv-fi/45464296#45464296(2)當你付出一些努力處理它們時,練習會有更多的價值 –

回答

0

您可以根據豬的使用分裂您的病情

如多發性=分割線由recTypeCd 案例HD1時rectypecd == 'HD', 案例HD2 ...

商店HD1到OP1; 將hd2存儲到op2;

相關問題