我想刪除HTML文件中的表格,具體來說,下面的文檔,我想刪除標籤<TABLE....> and </TABLE>
內的任何東西。該文檔包含多個表格,其中包含文本。正則表達式來解析HTML表格
然而,我提出的表達式<TABLE.*>\s*[\s|\S]*</TABLE>\s*
會刪除表格之間的文本。實際上,它會移除第一個<TABLE>
和最後一個</TABLE>
標記之間的所有內容。我想保留文字,只刪除表格。任何建議,非常感謝。謝謝。
====================
<TABLE STYLE=xxx, Font=yyy, etc>
table texts that should be DELETED...
</TABLE>
other texts that should be KEPT...
<TABLE STYLE=xxx, Font=yyy, etc>
table texts that should be DELETED...
</TABLE>
==========================================
**只是。不要。**可能的重複[RegEx匹配開放標籤,除了XHTML獨立標籤](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-標籤) – 2010-12-19 15:19:26
正則表達式匹配_「常規」_語言。 HTML不規則。不要試圖用正則表達式解析它。 – Phrogz 2010-12-19 16:22:47