通過C＃解析網頁，XmlDocument.LoadXml

2011-12-16 58 views 2 likes

我想下載一個網頁並解析它。我需要到達html文檔的每個節點。所以我使用WebClient進行下載，這非常完美。然後我用下面的代碼片段解析文檔：通過C＃解析網頁，XmlDocument.LoadXml

WebClient client = new WebClient(); 

Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/"); 
StreamReader reader = new StreamReader(data); 
string xml = reader.ReadToEnd(); 

data.Close(); 
reader.Close(); 
XmlDocument xmlDoc = new XmlDocument(); 
xmlDoc.loadXml(xml);

在最後一行，程序等待一段時間，然後崩潰。它說，在HTML代碼中有錯誤，這是不應該的，不應該在這裏，等等。任何建議來解決這個問題？其他技術來解析HTML代碼是受歡迎的（當然，在C＃中）。

來源

2011-12-16 Mikael

loadxml需要一個xml文檔，如果是html頁面，它會拋出異常 – 2011-12-16 18:59:30

回答

使用HTMLAgilityPack解析HTML。格式良好的HTML不是XML，不能像這樣解析。例如，它缺少所有XML文件需要的<?xml version="1.0" encoding="UTF-8"?>序言。 HTML敏捷包更爲寬容。

來源

2011-12-16 18:59:45 Amy

相關問題

1. C＃XmlDocument.LoadXml和通配符
2. 通過C++解析csv
3. 通過C＃解析/重構C＃代碼
4. 如何解析C++中的XML網頁
5. C＃ - 解析網頁的最佳方法？
6. C＃解析網頁的源代碼
7. 通過JavaScript解析t.co網址
8. 通過HTML頁面解析JSON數據
9. 通過當前頁面解析
10. django cms - 通過slug解析頁面url
11. 通過目標C解析NSXML
12. 解析通過PHP
13. 解析通過PHP
14. 解析通知不通過
15. 通過id解析XML解析
16. 從php解析網頁
17. 解析一個網頁
18. 從網頁解析XML
19. Jsoup解析一個網頁
20. 關於網頁解析
21. 從網頁解析HTML
22. 網頁解析無硒
23. 解析網頁索引
24. 解析網頁使用PowerShell
25. 解析JSON供稿網頁
26. 如何解析網頁
27. 嘗試解析xml，但xmldocument.loadxml（）正在嘗試下載？
28. C＃網頁通過LDAP登錄認證
29. C-通過網頁瀏覽器訪問HTTP網頁服務器
30. 在C＃或C++上從Internet上獲取和解析網頁