爲什麼DownThemAll不能識別我的reddit URL正則表達式？

所以我試圖使用AutoPagerize和DownThemAll的組合來下載我所有的舊reddit文章。爲什麼DownThemAll不能識別我的reddit URL正則表達式？

這裏有兩個樣本網址我要區分之間：

我試圖用正則表達式是：（\ B）的http：/ /www.reddit.com/([^?\s]*）？

我希望我的所有reddit文章已下載，但我不希望有任何冗餘，所以我想匹配我的所有reddit帖子，除了帶有問號的任何內容（之後有一個「context = 3」字符）。

我用RegEx Buddy表明regexp適合第一個URL，但不適用於第二個。但是，DownThemAll不承認這一點。是DownThemAll解析正則表達式有限的能力，還是我做錯了什麼？

現在，我剛剛決定下載他們所有，但使用的*subdirs*.*text*.*html*重命名口罩，這樣我以後可以去除大量含在其文件名中的單詞「上下文」任何東西。

根據我的經驗是什麼內，相當多的正則表達式引擎不支持「命名」字類，如'\ s'一個'[' ......'範圍。 – Cameron

哦 - 感謝您的信息！不幸的是，我發現了另一個正則表達式，我可以刪除\ s，但它仍然不起作用。 :( – InquilineKea

你爲什麼使用'\ b'？ –

Reddit確實有一個API，你可能想看看，可能會更容易。

編輯：看起來像http://www.reddit.com/user/USERNAME/.json可能是你想要

2011-09-28 19:22:25

回答