我有大的文本文件,其中通過編寫=
然後newline
字符有時將長行分成多行。 (來自Kaggle的安然電子郵件數據)。因爲即使是單詞也是這樣被打破的,我想用數據做一些機器學習,我想刪除這些休息。據我所見,組合=\n
僅用於這些休息時間,所以如果我刪除這些休息時間,我可以獲得相同的信息而沒有休息時間,也不會丟失任何信息。使用sed刪除空文件中的字符串結果
- 我不能使用
tr
,因爲它只替換1個字符,但我有兩個字符來替換。 的
sed
命令我使用至今不得要領是:sed --in-place --quiet --regexp-extended 's/=\n//g' email_aa_edit
其中
email_aa_edit
是安然郵件數據的一部分(用分裂分裂吧)是我的輸入文件。但是,這隻會產生一個空文件,我不知道爲什麼。 Afaik=
本身不是特殊字符,換行符應該是\n
。
刪除那些=\n
發生的正確方法是什麼?
我想用perl:'perl -pi -e's/= \ n //'email_aa_edit' – melpomene
@melpomene有趣,我確定我有相同的正則表達式來嘗試使用perl,但其他參數是不同的,它不起作用。你的工作。 – Zelphir