使用XPath（和HtmlAgilityPack）從Html表中選擇所有鏈接

我試圖實現的是提取所有鏈接，其中包含以http：//，https：//或/開頭的href屬性。這些鏈接位於具有特定類別的表格（tbody> tr> td等）中。我以爲我可以指定一個沒有整個路徑的元素，但它似乎不工作。使用XPath（和HtmlAgilityPack）從Html表中選擇所有鏈接

var table = doc.DocumentNode.SelectSingleNode("//table[@class='containerTable']"); 
if (table != null) 
{ 
    foreach (HtmlNode item in table.SelectNodes("a[starts-with(@href, 'https://')]")) 
    { 
     //not working

我不知道任何建議或最佳實踐，當涉及到的XPath：我在這個選擇的鏈接線得到一個NullReferenceException。當我查詢文檔兩次時，是否會創建開銷？

來源

2010-03-20 Adam Asham

在我的解決方案中，我爲所有應選擇的三個不同的''節點提供一個XPath表達式。另外，在文檔中查找所有''節點會更加精確和高效（作爲另一個答案建議 - // a） – 2010-03-21 04:40:40

使用：

//tbody/descendant::a[starts-with(@href,'https://') 
        or 
         starts-with(@href,'http://') 
        or 
         starts-with(@href,'./') 
         ]

您仍然有問題，除非你改正你的代碼，以反映事實的 XmlNode.SelectNodes()實例方法有XmlNodeList，不HtmlNode返回類型。

來源

2010-03-21 04:37:28

@Tomalak，感謝您修正了錯字。 – 2010-03-22 12:28:02

問題是，您選擇的表，然後立即試圖選擇錨點，就好像他們是直接的死者。中間有tr和td標籤。

所以，如果你改變你的XPath來下面，事情應該工作：

"tbody/tr/td/a[starts-with(@href, 'https://')]"

如果你的錨別的東西包裹起來這是行不通的，所以你可以選擇錨所有在當前的節點集（即表）：

"//a[starts-with(@href, 'https://')]"

爲XPath語法更詳細地參見this。

來源

2010-03-20 22:28:02 Oded

使用XPath（和HtmlAgilityPack）從Html表中選擇所有鏈接

回答

相關問題