我想從this page中提取只有一個具有id=MainText
的div元素。然而,當我這個頁面的內容加載到DOM對象,我得到幾個錯誤:使用DomDocument獲取元素在破損的HTML頁面上使用DomDocument
Tag g:plusone invalid... Unexpected end tag... htmlParseEntityRef: no name ... htmlParseEntityRef: expecting ';' ...
所以,我在想,如果有可能從文檔忽略所有其他的東西而直接進入到第一部分只需要獲取具有該特定ID的div元素即可。
或者,有沒有其他的使用domdocument類來實現相同的目的?我不擅長寫正則表達式。
*「當我加載此頁面的內容時」* - 您是如何做到這一點的? – Tomalak 2011-06-04 16:25:05
@Tomalak:我還沒有決定如何去做。僅出於測試目的,我下載了該頁面並將其放在本地文件夾中,然後使用了loadHTMLFile方法 – fabio 2011-06-05 16:01:23