2016-11-28 90 views
0

我使用hdfs中的sqoop獲取了數據,但是我的數據在單列中包含逗號','。當我在火花中使用相同的數據時,它將每個逗號作爲分隔符。我能做些什麼來改變這些逗號?在火花中使用數據時遇到問題?

假設如果你有xyz列裏面我有a,b,c在第一行和cd在第二行然後我可以做些什麼來避免這些逗號?

+0

你能解釋一下你用的是什麼文件格式?假設你正在使用csv,那麼其中一個選項是sep。如果您還提供代碼,我可以嘗試幫助 –

+0

我沒有使用csv文件。該文件在我的數據庫中。你在說什麼代碼 – Rani

+0

你如何將文件讀入火花?你能提供代碼嗎? –

回答

0

以文本格式導入數據時,默認字段分隔符爲逗號(,)。由於您的數據包含逗號,請更改字段分隔符。

在您的sqoop導入命令中使用--fields-terminated-by <char>

0

您可能會發現這些命令非常有用: --hive_drop-import-delims--hive-delims-replacement

More info here