2009-01-12 69 views
4

什麼是一個好的工具或工具集,下載URL列表並僅提取文本內容? Spidering不是必需的,但是可以控制下載文件名,並且線程化將是一項獎勵。HTML下載和文本提取

該平臺是linux。

回答

5

wget|html2ascii

注:html2ascii也可稱爲html2ahtml2text(我是不是能夠在網絡上找到合適的手冊頁吧)。另外:lynx

+0

html2text是否有一個帶空格的選項,因爲我找不到它 – Cammel 2009-01-12 17:55:18

0

我知道w3m可以用來渲染一個html文檔,並將文本內容放在一個文本文件中 w3m www.google.com> file.txt例如。

對於餘下的部分,我確定可以使用wget。

0

在Sourceforge上查找適用於PHP的Simple HTML DOM解析器。用它來解析你用CURL下載的HTML。每個DOM元素都有一個「純文本」屬性,它只能給你文本。我在使用這種組合的很多應用程序中相當長時間都非常成功。

0

PERL(實用提取和報告語言)是一種非常適合此類工作的腳本語言。 http://search.cpan.org/包含具有所需功能的模塊的分配。

0

使用wget下載所需的html,然後在輸出文件上運行html2text。