以編程方式刪除所有的HTML和內聯格式

我已經接管了一個代碼庫，我必須閱讀這些由微軟word genreated的html文件，我認爲它有各種各樣的內聯格式。以編程方式刪除所有的HTML和內聯格式

是否有解析所有不良的內聯格式，只是從這個流中獲取文本。我基本上想要一個淨化器編程式，所以我可以然後應用一些明智的css

2009-07-22 leora

最後，我寫了一個小類，做了一堆查找和替換。不漂亮，但它的工作。

2009-08-04 18:35:13 leora

您應該使用HTML Tidy - 它是清理HTML的唯一方式。有一個article on DevX that describes how to do it from .NET。

2009-07-22 19:58:03

回答