2010-05-21 182 views
3

我解析HTML文件的HTML敏捷包的幫助,從HTML文件中提取表數據。但是有一些html文件沒有可選的結束標籤,或者沒有起始標籤也是可選的。所以html敏捷包不會正確解析html頁面。如果我在記事本++中打開該html文件的內容然後使用選項TestFX-->TestFX HTML Tidy-->TiDy clean document並使內容整潔如此。現在這個文件如果我用html敏捷包進行解析,那麼它會正確解析它。我可以在我的應用程序中使用notepad ++ exe嗎?

用記事本++使html頁面整潔是最好的選擇。

所以我不知道,但用戶不能這樣做,他們首先使用記事本++使頁面整潔,然後繼續。然後,我該怎麼辦?

編輯我已經使用HTML整潔的包,但在某些情況下,存在被整理與該文件不會被解析,但如果我讓這個頁面在記事本整潔++則解析。

回答

4

我覺得記事本+ +是使用HtmlTidy庫,並且你也可以。主頁面是here

或者,也許你可以像使用HrmlTidy online

編輯服務:你似乎想用記事本+ +(上HtmlTidy的頂部)。 NP ++有一套有限的command options,所以加載文件不會是問題。但是我找不到任何接口來引用你需要的其餘部分:整理HTML並保存結果。

+0

我已經使用這個,但它並不總是工作。 – Harikrishna 2010-05-21 12:26:26

+0

我該怎麼做,任何推薦? – Harikrishna 2010-05-21 12:46:50

2

HTML Tidy獨立於Notepad ++,您可以直接在.NET(或其他語言)項目中使用此開源組件。

在.NET中使用更多細節具體可以發現here

0

HTML Tidy也可以單獨使用,並且僅用作Notepad ++中的插件。你可能想直接在你的應用中使用它。看看http://tidy.sourceforge.net/。許多語言的實現都可用。

相關問題