2015-10-20 109 views
0

我是相當新的阿帕奇豬,並試圖使用一些固定寬度的文本。在豬中,我正在閱讀每一行chararray(我知道我可以使用fixedwidthloader,但不是在這種情況下)。我正在使用的一個字段是一個電子郵件字段,一個條目具有回車,在完成的數據轉儲中生成額外的輸出行(我顯示了12行而不是我期望的9行)。我知道哪個條目有錯誤,但我無法使用豬過濾出來。阿帕奇豬過濾出回車

到目前爲止,我試圖用豬的REPLACE替換\ r或\ uFFFD,甚至嘗試了一種在命令行上工作的python UDF,但不是當我通過PIG將它作爲UDF運行時。任何人有任何建議?請讓我知道是否需要更多細節。

+0

JasonS,如果您分享場景的樣本輸入/輸出將會很有幫助。 – Learner

+0

我已經設法自己解決這個問題。這比我期待的要簡單得多。 – JasonS

回答

0

我原來編輯的解決方案竟然只是部分時間。這次我不得不在數據通過豬之前清理數據。在原始數據文件上,我做了一個perl -i -pe 's/\r//g' filename以刪除流氓回車。