2010-10-04 109 views
5

我有一個接收html文件的C#應用​​程序。我想分析和驗證它。在輸出時,它會返回一個錯誤列表或者我的html有效。如何使用C#驗證html文件?

有沒有人有任何想法我該怎麼做?

+0

可能重複[什麼是在C#中解析HTML的最佳方式?](http://stackoverflow.com/questions/56107/what-is-the-best-way -to-parse-html-in-c) – 2010-10-04 09:11:04

+2

這個問題的驗證部分使它與簡單解析HTML的問題非常不同。 – Quentin 2010-10-04 09:15:47

+0

沒錯,我對解析h​​tml不感興趣,我有興趣驗證它可能的錯誤。 – 2010-10-04 09:32:30

回答

1

這是有關您的問題:(!)

Looking for C# HTML parser

+0

不是。那正在尋找可以從錯誤中恢復的東西,而不是爲它們進行測試。 – Quentin 2010-10-04 09:16:15

+0

是的,錯誤可以從許多選項中恢復。 – Dave 2010-10-04 09:18:26

+2

關於它們的更多細節將會很好,我不認爲通過回答找到這些信息是很重要的,所以人們將不得不逐一檢查每個文檔。 – Quentin 2010-10-04 09:24:02

1

有一個在Framework 1.0版Microsoft.mshtml.dll一個不起眼的DLL,這是唯一的出路在框架來處理DOM。如果HTML是XHTML和有效的XML,那麼你可以使用XML,否則這是唯一的機會。

+0

我很驚訝那是處理DOM的*唯一*方法。 – Quentin 2010-10-04 09:16:54

+0

在框架先生負... – Aliostad 2010-10-04 09:24:34

+0

嗯,請解釋我如何才能驗證一個非常詳細的HTML文件與XML。我也想過,我認爲這不是最好的方法。 – 2010-10-04 09:37:13

3

可以使用HTML整潔與它通信。有一個.NET的包裝叫TidyManaged

+1

TidyManaged不給任何功能的DLL – 2010-10-08 13:21:40

+1

你在這裏嘗試過嗎? http://github.com/markbeaton/TidyManaged/downloads – gcores 2010-10-08 14:19:22

+0

我有一個關於tidy.net和tidymanaged的博客帖子http://www.jphellemons.nl/post/Tidy-your-HTML-with-AspNet-TidyManaged-vs- Tidynet.aspx – 2011-10-25 07:01:08