我已經接管了一個代碼庫,我必須閱讀這些由微軟word genreated的html文件,我認爲它有各種各樣的內聯格式。以編程方式刪除所有的HTML和內聯格式
是否有解析所有不良的內聯格式,只是從這個流中獲取文本。我基本上想要一個淨化器編程式,所以我可以然後應用一些明智的css
我已經接管了一個代碼庫,我必須閱讀這些由微軟word genreated的html文件,我認爲它有各種各樣的內聯格式。以編程方式刪除所有的HTML和內聯格式
是否有解析所有不良的內聯格式,只是從這個流中獲取文本。我基本上想要一個淨化器編程式,所以我可以然後應用一些明智的css
最後,我寫了一個小類,做了一堆查找和替換。不漂亮,但它的工作。
您應該使用HTML Tidy - 它是清理HTML的唯一方式。有一個article on DevX that describes how to do it from .NET。