HTMLAgility Pack可以保留未封閉的標籤嗎？

我需要解析HTML字符串是這樣的：HTMLAgility Pack可以保留未封閉的標籤嗎？

<widget attribute="1"> 
    <header> 
    <table> 
    </header> 
    <item> 
    <tr><td>content</td></tr> 
    </item> 
    <footer> 
    </table> 
    </footer> 
</widget>

我使用HTML敏捷性包，我能找到的所有「部件」：

HtmlDocument doc = new HtmlDocument(); 
doc.OptionAutoCloseOnEnd = false; 
doc.OptionOutputAsXml = false; 
doc.LoadHtml(htmlString); 
HtmlNodeCollection widgets = doc.DocumentNode.SelectNodes("//widget");

我的問題是，當我嘗試獲取Widget節點的所有子節點。HTMLAgility會自動關閉所有我的標記，因此我無法正確檢索Header，Item和Footer節點。由Agility生成的輸出爲：

<header> 
    <table> 
</table></header> 
<item> 
    <tr> 
     <td><p>Riga n.1</p></td> 
    </tr> 
</item> 
<footer> 

</footer>

它關閉標題中的表標記，並將頁標記隱藏在頁腳中。有沒有辦法讓這些標籤不封閉？我試圖搜索有關LoadHtml方法邏輯的文檔，但我沒有找到任何東西。我想我需要玩選項。

你能幫我嗎？

來源

2013-02-24 Gianni

這不是一個HTML字符串。 – BoltClock 2013-02-24 14:49:47

我知道這不是一個符合標準的html字符串..我需要解析它，然後我將動態構建標準的html代碼。所以我問是否有辦法用HTMLAgility來管理這種類型的代碼「異常」。 – Gianni 2013-02-24 15:23:03

HtmlAgilityPack解析HTML。這是完全破碎的HTML，所以它需要最好的猜測。瀏覽器將不會更好。例如，火狐將這種爲：

<header> 
<item> </item> 
<footer> </footer> 
<table> 
<tbody> 
<tr> 
<td>content</td> 
</tr> 
</tbody> 
</table> 
</header>

通過使用HTML破，你打開自己高達未定義的行爲，這將是具體實施。修復您的HTML並恢復世界的意義。

來源

2013-02-24 14:57:01 spender

嗨spender ..我的HTML有意義..我需要創建一個標準的HTML輸出與模板小部件，喜歡它。例如該小工具將顯示新聞列表，所以我想使用該代碼構建輸出。然後，我可以寫響應輸出是這樣的：

新聞1新聞2

我希望你能更好地理解什麼我想解釋。 – Gianni 2013-02-24 15:12:06

Html Agility Pack通常不支持設計中的重疊標籤。但是，您可以像這樣調整：

HtmlDocument doc = new HtmlDocument(); 
HtmlNode.ElementsFlags.Add("table", HtmlElementFlag.CanOverlap | HtmlElementFlag.Empty); 
doc.LoadHtml(htmlString);

在這種情況下，您指示庫將TABLE視爲重疊標記。作爲一個方面說明，FORM是默認情況下唯一定義爲重疊標記的TAG（請參閱此處的原因：HtmlAgilityPack -- Does <form> close itself for some reason?）。

然而，這不來免費的午餐......

這意味着，該庫將看到什麼是表和結束表標記作爲一個純文本元素中。因此，解析表內的所有標記都不會以編程方式訪問，您不會在DOM中看到它，也不會使用XPATH查看它，但這可能足以滿足您的需求。

來源

2013-02-25 06:57:43

這是...無效的HTML。 – BoltClock 2013-02-25 07:00:27

@BoltClock - 什麼是無效的HTML？ – 2013-02-25 07:01:55

您給定的HTML片段，您描述爲無效的XML或XHTML，但是有效的HTML ...它不適用於三種語言中的任何一種。 – BoltClock 2013-02-25 07:02:26

你需要從你的價值觀刪除那些<>符號，那麼你可以XDocument.Parse()它：

<widget attribute="1"> 
    <header>[table]</header> 
    <item>[tr][td]content[/td][/tr]</item> 
    <footer>[/table]</footer> 
</widget>

只是.Replace('[','<').Replace(']', '>')你讀什麼，你要善於去。

Italian MSDN page about System.Xml.Linq.XDocument class here

來源

2013-02-25 07:58:09 Alex

HTMLAgility Pack可以保留未封閉的標籤嗎？

回答

相關問題