好吧,我一直在搞亂Nutch,需要知道我編輯crawl-urlfilter.txt
文件裏面有什麼參數,所以蜘蛛有無界限。換句話說,我希望它漫遊在指定域以外的網絡。Nutch網絡蜘蛛,索引整個網絡
我假設它與這條線做的,但我不知道如何正確地編輯做,因爲我希望它:
+^http://([a-z0-9]*\.)*urlz.net/
好吧,我一直在搞亂Nutch,需要知道我編輯crawl-urlfilter.txt
文件裏面有什麼參數,所以蜘蛛有無界限。換句話說,我希望它漫遊在指定域以外的網絡。Nutch網絡蜘蛛,索引整個網絡
我假設它與這條線做的,但我不知道如何正確地編輯做,因爲我希望它:
+^http://([a-z0-9]*\.)*urlz.net/
我不使用Nutch framiliar但這只是一個正則表達式。
+^http://([a-z0-9\.])*
可能工作得很好,或者它的一些變化。它只是匹配模式。我剛剛寫的那個應該匹配任何以http://開頭的內容,然後是任意數量的字母,數字或點。
您的正則表達式不正確。封閉的圓括號缺失。 – 2011-03-16 01:50:18
@Oscar我不敢相信我把它搞砸了,謝謝! – Cody 2011-03-16 01:52:56
我所知道的是+^http://([a-z0-9] * \。)正在爲我工作。 – 2011-03-16 01:55:03
它似乎與域名'urlz.net'下的網址相匹配。嘗試使用'+^http://([a-z0-9] * \。)*'代替。 – 2011-03-16 01:53:22