我使用hdfs中的sqoop獲取了數據,但是我的數據在單列中包含逗號','。當我在火花中使用相同的數據時,它將每個逗號作爲分隔符。我能做些什麼來改變這些逗號?在火花中使用數據時遇到問題?
假設如果你有xyz列裏面我有a,b,c在第一行和cd在第二行然後我可以做些什麼來避免這些逗號?
我使用hdfs中的sqoop獲取了數據,但是我的數據在單列中包含逗號','。當我在火花中使用相同的數據時,它將每個逗號作爲分隔符。我能做些什麼來改變這些逗號?在火花中使用數據時遇到問題?
假設如果你有xyz列裏面我有a,b,c在第一行和cd在第二行然後我可以做些什麼來避免這些逗號?
以文本格式導入數據時,默認字段分隔符爲逗號(,
)。由於您的數據包含逗號,請更改字段分隔符。
在您的sqoop導入命令中使用--fields-terminated-by <char>
。
您可能會發現這些命令非常有用: --hive_drop-import-delims
或--hive-delims-replacement
你能解釋一下你用的是什麼文件格式?假設你正在使用csv,那麼其中一個選項是sep。如果您還提供代碼,我可以嘗試幫助 –
我沒有使用csv文件。該文件在我的數據庫中。你在說什麼代碼 – Rani
你如何將文件讀入火花?你能提供代碼嗎? –