5
A
回答
5
我已經使用Web Harvest
幾次了,它非常適合網頁抓取。
Web-Harvest是開源Web數據 用Java編寫的抽取工具。它 提供了一種方法來收集所需的網頁並從 中提取有用的數據。爲了做到這一點,它利用已經建立的技術 和用於諸如XSLT,XQuery和 正則表達式的text/xml 操作的技術。 Web-Harvest 主要關注基於HTML/XML的web 網站,該網站仍然佔據Web內容的絕大多數 。另一方面, 可以很容易地由 自定義Java庫進行補充,以便 增強其提取功能。
另外,也可以使用工具,如JTidy
首先一個HTML文檔轉換爲XHTML,然後再進行處理您需要XPath
信息推出自己的網頁刷屏。例如,天真的XPath表達式可以從http://www.wired.com
中提取所有超鏈接,如//a[contains(@href,'wired')]/@href
。你可以在這個answer中找到一些類似問題的示例代碼。
2
'簡單'在這裏可能不是一個相關的概念。這是一項複雜的任務。我建議nutch。
相關問題
- 1. 創建一個簡單的'蜘蛛'
- 2. Scrapy找不到蜘蛛
- 3. 如何比較每個Scrapy蜘蛛項目與另一個Scrapy蜘蛛項目?
- 4. Scrapy從主蜘蛛運行多個蜘蛛?
- 5. Python的scrapy蜘蛛
- 6. Scrapy DOMAIN_NAME的蜘蛛
- 7. 塊蜘蛛機器人除了一個
- 8. 如何在Python中編寫簡單的蜘蛛程序?
- 9. Web蜘蛛與Wget的蜘蛛有什麼不同?
- 10. 如何喂蜘蛛蜘蛛爬行內的鏈接?
- 11. 尋找一個簡單而靈活的Java Swing LayoutManager
- 12. 尋找簡單的3D Java庫
- 13. 尋找Java註釋的簡單配方
- 14. 在使用scrapy製作的網絡爬蟲中調用另一個蜘蛛的一個蜘蛛
- 15. 佈局像蜘蛛
- 16. asp.net(網絡蜘蛛)
- 17. Scrapy與Scrapy蜘蛛
- 18. Scrapy找不到蜘蛛錯誤
- 19. 附表scrapyd蜘蛛和蜘蛛通過配置選項
- 20. 使用Scrapy創建蜘蛛,蜘蛛生成錯誤
- 21. Scrapy蜘蛛Xpath的選擇
- 22. scrapy中的連環蜘蛛
- 23. 蜘蛛內的Scrapyd jobid值
- 24. 的Python,蒙戈+蜘蛛猴
- 25. robots.txt的蜘蛛間隔
- 26. 的robots.txt禁止:蜘蛛
- 27. Scrapy有一個蜘蛛使用另一個嵌入的屬性
- 28. 爬行蜘蛛不進入下一頁
- 29. Scrapy蜘蛛登錄問題
- 30. 阻止網絡蜘蛛
感謝此資源。我能夠成功地適應它。但是,如果網頁響應結果爲500,則在元素內容中找到輸出「無效XML字符(Unicode:0x0)」的刮板失敗(例如http://www.allure.com/magazine/flipbook)的文件。「有關此錯誤消息的任何想法? – rs79 2011-02-22 20:52:42