2017-08-27 125 views
0

我已得到NLTK的路透社語料庫的文章,作爲一個原始字符串NLTK:原始字符串轉換爲普通字符串

>>>from nltk.corpus import reuters 
>>>retail_article = reuters.raw('training/8173') 
>>>print (retail_article) 

"FRENCH GDP SHOULD RISE 2.3 PCT IN 1988 - MINISTRY\n French gross domestic 
product should grow\n by 2.3 pct in 1988 after two pct growth this year 
and 2.1 pct\n in 1986, the Finance Ministry said.\n  The latest 
forecast,... 

相反的\n,我希望文字是在一個單獨的線。我怎樣才能做到這一點?

>>>type(retail_article) 
str 

decode()不處理字符串,並encode()沒有得到所要的結果。

TIA

回答

2

告訴你的輸出不是通過書面print(retail_article)產生。很明顯,你在解釋器提示符下鍵入retail_article。差異很大,它似乎是你混淆的根源。

不需要轉換。 「原始」字符串是一種編寫文字字符串的方式。語料庫讀取器的raw()方法不返回「原始字符串」,它只是返回一個字符串。 (方法名是指一個事實,即沒有處理完成;返回文件(S)的確切內容。)

你的字符串retail_article包含實際換行符,不\n序列。要查看換行符,請使用print(retail_article)。當您在命令提示符下編寫retail_article時,您會明確表示該字符串(即所謂的「repr」形式) - 您正在查看的內容。

相關問題