2017-03-07 75 views
0

我正在使用在線工具來抓取我客戶的網站並提供其上存在的網頁/網址列表。正則表達式從網絡爬蟲中排除網址

還有就是要排除網頁選項,並給出了\?.*page=.*$

正則表達式的例子,我想(從新聞頁面本身除了)忽略新聞欄目一切

所以會我去與以下?

\?.*news/.*$

回答

0

如果我理解正確的話,你正在尋找匹配news/foonews/foo/bar,但不news/正則表達式。

可以使用該正則表達式爲:.*news/.+

.*串與0個或多個字符(多個)

news/串包括新聞/

.+串與1個或多個字符(結束開始s)

http://regexr.com/3ffj1