我正在使用海葵。我該如何抓取子域名?例如,如果我有網站www.abc.com
我的爬蟲應該也爬行support.abc.com
或blah.abc.com
。我使用Ruby 1.8.7和Rails 3.用海葵爬行子域
Q
用海葵爬行子域
3
A
回答
4
這是Github上的一個提交,它解決了您的問題。
https://github.com/runa/anemone/commit/91559bde052956cfc40ae62678ec2a61574cf928
更改海葵寶石文件按鏈接。
-2
按照Anemone docs你可以通過多個站點到crawl
命令:
Anemone.crawl("http://www.abc.com/", "http://support.abc.com/", "http://blah.abc.com/")
當然,你的下一個問題可能會被ABC禁止你的爬行他們的網站,但這是一個不同的問題。
+0
如果我不知道子域名,該怎麼辦? – 2012-02-16 06:35:42
+0
如果您不知道子域名,則必須通過搜索從第一個頁面檢索到的鏈接來嘗試找到它們,以查找起始域的其他子域或似乎是兄弟域的網站一。然後產生二次抓取。 – 2012-02-17 18:57:18
相關問題
- 1. 海葵與Rails和MongoDB
- 2. 如何只使用海葵抓取子文件夾
- 3. 海葵在第一頁打印鏈接
- 4. 海葵忽略包含某個短語的網址鏈接
- 5. 海葵擦洗一定的頁面深度
- 6. 使用海葵在我的電腦上用ruby搜索文件和文件夾
- 7. 如何使用單個爬網程序對多個域進行爬網?
- 8. 爬行使用Python
- 9. 紅寶石海葵蜘蛛中加入代碼,每個URL訪問
- 10. MOSS 2007爬行
- 11. 爬行itunes.apple.com
- 12. Scrapy CSV爬行
- 13. 爬行amazon.com
- 14. 的Web爬行使用PHP
- 15. 爬行不起作用windows2008
- 16. 用scrapy廣泛爬行
- 17. 搜索爬行「Bot」?
- 18. 谷歌爬行AJAX
- 19. 遇到trustAsHtmlFilter爬行
- 20. scrapy加速爬行
- 21. Scrapy不是爬行
- 22. 爬行WP7市場
- 23. nutch爬行路徑
- 24. 在pdf內爬行
- 25. Scrapy爬行0頁
- 26. 使用Scrapy進行多次爬行
- 27. 防止機器人爬行網站的某些區域
- 28. Scrapy:停止爬行一個域,如果條件滿足
- 29. 子域名。你如何使用子域進行開發?
- 30. 爬行蜘蛛不爬行規則問題
爲什麼這是一個Rails或Nokogiri的問題? – 2012-02-15 18:14:47
我刪除了rails和nokogiri標籤:它們不是這個問題的核心。 – 2012-06-21 16:35:17