2011-02-10 36 views
0

我正在使用網站收穫(http://web-harvest.sourceforge.net/),這是一個開源的網頁抓取工具。在Web Harvest中創建包含特殊字符的正則表達式

我試圖使用的正則表達式有「<」,「>」字符(因爲我試圖去掉所有進入的HTML標籤)。這會導致問題,因爲元素的內容必須包含格式正確的字符數據或標記。

我需要以某種方式逃避正則表達式,但無法弄清楚如何。

任何想法?

+0

HTML解析是一個解決的問題。考慮你是否真的需要使用正則表達式重新創建解決方案。強制性的SO鏈接:http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – jasso 2011-02-10 21:08:56

回答

1

使正則表達式格式良好的XML。嘗試用&lt;>替換<&gt;。同樣,如果您的正則表達式中有&,則需要用&amp;替換。

此外,我建議你使用HTML解析器,而不是正則表達式來完成此任務。

相關問題