2009-04-17 127 views
22

我需要將降價文本轉換爲純文本格式才能在我的網站上顯示摘要。我想在Python中的代碼。Python:如何將降價格式文本轉換爲文本

+1

不是python,但是你可以把它傳遞給pandoc:`pandoc --to = plain`留下一些格式(header undelines),但不是很多。 – naught101 2014-05-29 06:22:00

回答

36

此模塊將幫助你描述一下:

http://www.freewisdom.org/projects/python-markdown/Using_as_a_Module

一旦轉換降價到HTML,您可以使用HTML解析器來剔除純文本。

您的代碼可能是這個樣子:

from BeautifulSoup import BeautifulSoup 
from markdown import markdown 

html = markdown(some_html_string) 
text = ''.join(BeautifulSoup(html).findAll(text=True)) 
+1

它似乎像轉換爲HTML ..我需要轉換爲純文本..就像在stackoverflow,在主頁問題總結,它刪除格式 – Krish 2009-04-17 19:30:10

2

評論,並刪除它,因爲我終於覺得我看到這裏的困難:它可能是更容易的降價文本轉換爲HTML,並從文本中刪除HTML 。我不知道有什麼可以有效地從文本中刪除降價,但有很多HTML到純文本解決方案。