0
A
回答
1
我認爲Ruby是蠻好的這些類型的任務組成:
- http://rubyrss.com/
- http://www.ruby-doc.org/stdlib/libdoc/rss/rdoc/index.html
- http://railscasts.com/episodes/173-screen-scraping-with-scrapi
如果您習慣用Ruby我看不出有任何理由掏出Java,Python等。對於大多數任務。請記住,許多Ruby庫位於本機實現上。
1
Feed(RSS?)通常結構良好(至少與常規網頁相比)。查看Web Harvest,一個基於Java/bean的基於shell的DOM解析器(等等)。您可以使用它來自動從互聯網上獲取數據。有一個領域特定的語言(用XML定義),你必須學習。它的學習曲線可能有點陡峭,但我覺得這是值得的努力。
0
我對Java並不是很熟悉,但我可以說Python非常適合這項工作。
有一個名爲BeautifulStoneSoup的非常快速的XML解析器模塊,您可以使用它。它是BeautifulSoup圖書館的一部分。如果你只是在尋找一個簡單的索引器,Python有一個內置的sqlite引擎,它也是輕量級且非常快速的。
相關問題
- 1. Nutch,蜘蛛,索引網頁它已經在它的索引?
- 2. Ruby網絡蜘蛛和搜索引擎庫
- 3. 附表scrapyd蜘蛛和蜘蛛通過配置選項
- 4. Web蜘蛛和HTTP驗證
- 5. 蜘蛛和刮板架構
- 6. Python的scrapy蜘蛛
- 7. Scrapy DOMAIN_NAME的蜘蛛
- 8. 防止索引目錄中的流氓蜘蛛
- 9. 搜索引擎中的蜘蛛如何工作?
- 10. Web蜘蛛與Wget的蜘蛛有什麼不同?
- 11. 如何喂蜘蛛蜘蛛爬行內的鏈接?
- 12. 佈局像蜘蛛
- 13. asp.net(網絡蜘蛛)
- 14. Scrapy與Scrapy蜘蛛
- 15. 鏈接檢查器(蜘蛛爬行器)
- 16. 在Django中,爲搜索引擎蜘蛛禁用@login_required
- 17. 如何向搜索引擎蜘蛛提供區域內容?
- 18. Nutch網絡蜘蛛,索引整個網絡
- 19. 做搜索引擎機器人 - 爬蟲 - 蜘蛛 - 等有他們的JavaScript?
- 20. Scrapy從主蜘蛛運行多個蜘蛛?
- 21. 使用Scrapy創建蜘蛛,蜘蛛生成錯誤
- 22. Scrapy蜘蛛Xpath的選擇
- 23. scrapy中的連環蜘蛛
- 24. 蜘蛛內的Scrapyd jobid值
- 25. 的Python,蒙戈+蜘蛛猴
- 26. robots.txt的蜘蛛間隔
- 27. 的robots.txt禁止:蜘蛛
- 28. 如何爲網站上的不同蜘蛛設置不同的語言?
- 29. TYPO3:索引搜索indexed_search和語言
- 30. 塊蜘蛛機器人除了一個