使用Java和XPath提取網頁內容

我正嘗試從Java中的http://www.amazon.com/gp/bestsellers/electronics提取org.w3c.dom.NodeList。下面是我用來顯示在谷歌瀏覽器的JavaScript控制檯後，我的結果XPath語句：使用Java和XPath提取網頁內容

$x("//div[@class='zg_itemRightDiv_normal']")

上面的語句工作得十分完美，但是當我使用Java的javax.xml.xpath和org.w3c.dom庫，我沒有得到任何結果：

XPathExpression expr = xPath.compile("//div[@class='zg_itemRightDiv_normal']"); 
NodeList productNodes = (NodeList) expr.evaluate(doc, XPathConstants.NODESET); 

// In the above productNodes definition, doc is a org.w3c.dom.DocumentFragment 

System.out.println(productNodes.getLength()); // prints out '0'

我錯過了什麼？

來源

2012-12-14 Alex Wood

嘗試給出完整路徑.... – mtk

解決這個問題最終是雙重的：

的DocumentFragment我從沒有包括我試圖提取信息讀取;使用完整Document解決了問題
出於某種原因，在我的XPath語句中大寫HTML標記使我能夠獲取我之後的信息（即xPath.compile("//DIV[@class='zg_itemRightDiv_normal']")）。

來源

2012-12-18 22:24:50

這可能是因爲您試圖將輸入視爲XML，而它確實是HTML（而不是XHTML）。

您需要先將HTML轉換爲XHTML - 我之前成功使用過TagSoup，但也有其他庫可以做到這一點（JTidy，NekoHTML）。

TagSoup會爲您提供一個SAX解析器，然後您可以將其轉換爲DOM，然後使用XPath進行處理。

來源

2012-12-14 01:51:50 prunge

TagSoup非常有幫助，謝謝！ –

使用Java和XPath提取網頁內容

回答

相關問題