2011-05-11 69 views
1

我試圖創建一個簡單的工具來解析html文件。解析不帶xpath的HTML

具體而言,我需要它從div標籤中獲得所有name屬性。

我的HTML字符串各不相同,我沒有任何控制權,所以如果我嘗試使用xpath,我會傾向於獲取錯誤,因爲HTML不是100%正確寫入。

任何想法?

感謝,

+0

[抓取A元素的href屬性]的可能重複(http://stackoverflow.com/questions/3820666/grabbing-the-href-attribute-of-an-a-element) – Gordon 2011-05-11 10:27:49

+3

如果HTML是格式不正確,請使用['DOMDocument :: loadHTML()'](http://de.php.net/manual/en/domdocument.loadhtml.php)。這將使DOM使用HTML解析器模塊,它可以處理大多數錯誤的HTML罰款,並允許您使用XPath。 – Gordon 2011-05-11 10:29:04

+1

*(相關)* [解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon 2011-05-11 10:30:09

回答

2

還有上http://simplehtmldom.sourceforge.net/

稱爲PHP簡單的HTML DOM解析器一個偉大的階級正常工作與無效的HTML,但需要大量的內存用於解析HTML長,文件。

+0

This works great! – 2011-05-12 13:49:24