2012-03-26 88 views
1

我使用nutch 1.4抓取網站。爲了演示目的,我開始使用jabong.com進行抓取,但我發現nutch無法抓取站點中的所有鏈接。Nutch未能抓取特定網站

參觀後http://www.jabong.com/women/clothing/womens-suits-sets/ 它不會獲取本網站中映射到圖像上的鏈接。

我將nutch配置爲: - conf/nuth-default.xml --->添加了代理名稱 conf/regex-urlfilter.txt --->而不是+。 ,我寫了+^http://([a-z0-9] *。)* jabong.com/ seed.txt包含http://www.jabong.com/

有人可以告訴我可能是什麼問題,它沒有獲取所有鏈接?

回答

2

最後,能夠解決這個問題後長時間打破我的頭。所以在這裏分享吧:) 你必須調整在conf目錄中nutch-default.xml定義的參數

所以檢查max.content.length,這個定義的值將是60K左右,但實際上的頁面內容被更多的,因此無法抓取整個頁面,這就是爲什麼鏈接無法顯示在抓取的頁面中。

所以抓取的所有網站都檢查這些參數:) 享受爬行:)

PS前:我很抱歉,我區分some1認爲我在這裏發表的問題,然後張貼的解決方案。在發佈問題之前,我實際上嘗試了很多..