2012-07-07 56 views
3

這裏有一堆HTML文本提取工具。主要用於Java或Python。我遇到的最常見的是鍋爐。這裏和那裏有幾個API,有些似乎工作得很好。有誰知道在PHP中的任何事情嗎?用於php的html文本提取

+0

定義「html文本提取」。你在找[DOM](http://php.net/manual/en/book.dom.php)嗎? – DaveRandom 2012-07-07 22:35:10

+0

不,就像你在iOS上所瞭解的那樣,他們有「讀者」,它會將網站上的所有垃圾(比如增加,導航等)拿出來,只是顯示內容以便閱讀?這就是我的意思 – Bill 2012-07-08 19:00:08

回答

0

DomDocument是在PHP中使用的一類,如果你有libxml的支持,可以解析HTML文件,讓你在它們之間迭代或發行XPath查詢來查找特定的節點DOM樹。這是理想的方法。或者,如果文本足夠簡單且均勻,則可以使用preg_match()從數據中提取文本,使用Regular Expressions

+2

Oooh,在那裏生活危險。你可以被釘死在暗示你在這裏知道(你知道我在說什麼)。標準鏈接出現之前需要多長時間...? – DaveRandom 2012-07-07 22:36:58

+0

@DaveRandom :)是的,我知道你的意思。我試圖對這種事情保持務實,因爲有時候它可能也會起作用。 – drew010 2012-07-08 02:28:04