2012-02-20 41 views
1

我需要以編程方式驗證網頁標記,並且通過使用正則表達式聽到了這一點。如果是這樣如何?有沒有其他方法? (除使用w3c服務外)如何以編程方式驗證網頁的標記?

+4

hehe提醒了我最喜歡的問題:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags。 – 2012-02-20 17:57:39

+0

這肯定不是一個需要使用正則表達式解決的問題(請參閱Zortkun的鏈接),但顯然它可能以其他方式或w3c的服務不存在... – nnnnnn 2012-02-21 02:51:31

+1

使用w3c服務有什麼錯誤?它具有權威性,可以[以編程方式查詢](http://validator.w3.org/docs/users.html#Calling)。 – collapsar 2012-03-01 13:37:55

回答

1

使用HTML Tidy http://tidy.sourceforge.net/它既報告HTML文檔的有效性,也可以嘗試自動清除它。您可以將其作爲命令行應用程序運行並編寫腳本。在Java,Perl和Python中有它的端口或包裝器。

我也使用TagSoup庫爲Java http://ccil.org/~cowan/XML/tagsoup/它很好的清理格式不正確的HTML到有效的XML。

+0

對HTML「tidy」+1。 – 2012-05-08 13:26:44