解析不帶xpath的HTML

我試圖創建一個簡單的工具來解析html文件。解析不帶xpath的HTML

具體而言，我需要它從div標籤中獲得所有name屬性。

我的HTML字符串各不相同，我沒有任何控制權，所以如果我嘗試使用xpath，我會傾向於獲取錯誤，因爲HTML不是100％正確寫入。

任何想法？

感謝，

2011-05-11 Or Weinberger

[抓取A元素的href屬性]的可能重複（http://stackoverflow.com/questions/3820666/grabbing-the-href-attribute-of-an-a-element） – Gordon 2011-05-11 10:27:49

如果HTML是格式不正確，請使用['DOMDocument :: loadHTML（）']（http://de.php.net/manual/en/domdocument.loadhtml.php）。這將使DOM使用HTML解析器模塊，它可以處理大多數錯誤的HTML罰款，並允許您使用XPath。 – Gordon 2011-05-11 10:29:04

*（相關）* [解析HTML的最佳方法]（http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662） – Gordon 2011-05-11 10:30:09

還有上http://simplehtmldom.sourceforge.net/

稱爲PHP簡單的HTML DOM解析器一個偉大的階級正常工作與無效的HTML，但需要大量的內存用於解析HTML長，文件。

來源

2011-05-11 15:27:54 shadowhorst

This works great！ – 2011-05-12 13:49:24

解析不帶xpath的HTML

回答

相關問題