2011-03-16 179 views
-1

好吧,我一直在搞亂Nutch,需要知道我編輯crawl-urlfilter.txt文件裏面有什麼參數,所以蜘蛛有無界限。換句話說,我希望它漫遊在指定域以外的網絡。Nutch網絡蜘蛛,索引整個網絡

我假設它與這條線做的,但我不知道如何正確地編輯做,因爲我希望它:

+^http://([a-z0-9]*\.)*urlz.net/ 
+0

它似乎與域名'urlz.net'下的網址相匹配。嘗試使用'+^http://([a-z0-9] * \。)*'代替。 – 2011-03-16 01:53:22

回答

0

我不使用Nutch framiliar但這只是一個正則表達式。

+^http://([a-z0-9\.])* 

可能工作得很好,或者它的一些變化。它只是匹配模式。我剛剛寫的那個應該匹配任何以http://開頭的內容,然後是任意數量的字母,數字或點。

+0

您的正則表達式不正確。封閉的圓括號缺失。 – 2011-03-16 01:50:18

+0

@Oscar我不敢相信我把它搞砸了,謝謝! – Cody 2011-03-16 01:52:56

+0

我所知道的是+^http://([a-z0-9] * \。)正在爲我工​​作。 – 2011-03-16 01:55:03