2009-07-22 120 views
2

我已經接管了一個代碼庫,我必須閱讀這些由微軟word genreated的html文件,我認爲它有各種各樣的內聯格式。以編程方式刪除所有的HTML和內聯格式

是否有解析所有不良的內聯格式,只是從這個流中獲取文本。我基本上想要一個淨化器編程式,所以我可以然後應用一些明智的css

回答

0

最後,我寫了一個小類,做了一堆查找和替換。不漂亮,但它的工作。