我想做一些困難。我想做一個爬蟲,除了從鏈接將下載也網站的源代碼。之後,我想做一個程序如果語句存在(例如,如果有一個標題不包括此網站),它將搜索每個網站的源代碼。網絡爬蟲,它檢索網站源代碼
-3
A
回答
0
2
我曾經爲類似的東西找到過一個PHP腳本,但它當然抓住了客戶端代碼(正如SpyrosP準確地說的那樣)。請參閱http://www.phpclasses.org/package/4616-PHP-Crawl-Web-pages-to-search-for-given-text.html
+0
是的,我的意思是html代碼 – akageek 2011-03-19 19:56:11
1
以下是使用HttpWebRequest對象獲取信息的C#示例。
0
你可以通過jsoup
jsoup是一個Java庫與現實世界的HTML工作。
jsoup - official site link
您可以檢索信息,使用標籤解析Html。
0
你用linux comando wget測試過嗎? http://m.linuxjournal.com/content/downloading-entire-web-site-wget
我認爲你也可以測試。
相關問題
- 1. 網絡爬蟲
- 2. PHP網絡爬蟲
- 3. java網絡爬蟲
- 4. Python網絡爬蟲
- 5. asp.net mvc網站搜索使用網絡爬蟲
- 6. Python網絡爬蟲和「獲取」html源代碼
- 7. 蟒蛇爬蟲代碼搜索網絡上的任何文件
- 8. 需要網絡爬蟲
- 9. 自動網絡爬蟲
- 10. 網絡爬蟲,反饋?
- 11. 網絡爬蟲不打印
- 12. 網絡爬蟲應用
- 13. 網絡爬蟲提取
- 14. python網站爬蟲(多個網站)
- 15. 讓PHP網絡爬蟲尊重任何網站的robots.txt文件
- 16. 針對windows的增量爬網支持的網絡爬蟲
- 17. 獲取頁面的完整的HTML源代碼進行網絡爬蟲
- 18. 是一個網絡爬蟲更合適?
- 19. 在Scala中的網絡爬蟲算法
- 20. 網絡爬蟲使用雙絞線
- 21. 識別敵對網絡爬蟲
- 22. 與Python 2.7.9分頁網絡爬蟲
- 23. 網絡爬蟲遇到什麼危險?
- 24. 錯誤使用C#網絡爬蟲
- 25. PHP與Python對於網絡爬蟲
- 26. 製作網絡爬蟲/蜘蛛
- 27. 在android上的簡單網絡爬蟲?
- 28. 網絡爬蟲和GET與POST請求
- 29. 網絡爬蟲產生輸出緩存
- 30. 網絡爬蟲更新策略
這是不可能的,除非你的意思是*源HTML * – BrokenGlass 2011-03-19 19:51:15
你的問題不是非常具體,並已在本網站上爲大多數常用語言回答。請記住使用搜索功能,所有的網頁爬蟲在某個時候檢索頁面的「源代碼」(html)。這是唯一需要回收的東西。 – Mat 2011-03-19 19:51:52