我剛剛對搜索引擎的工作方式感興趣,並且發現他們使用「機器人」或「網絡爬蟲」。我立即開始想知道這些事情是如何工作的,我想創造一個!所以,首先:你如何製作一個從服務器請求頁面的程序?如果你在JavaScript中給了我一個簡單的例子(我使用Node將它作爲正常的腳本語言運行),那將會非常棒。接下來,有沒有讓我解釋HTML的Node模塊?爲我創建一個DOM,以便我可以循環所有鏈接等等?糾正我,如果我錯了,但我想它是這樣做的... C++,C或Python中的任何示例也受到熱烈歡迎,但我更喜歡JS或Python,因爲我更熟悉高級腳本語言。如何使用Node.js創建Web爬蟲?
4
A
回答
3
- 獲取HTTP網頁:node http.get(例如有)
- DOM文檔:jsdom(也包括示例)
相關問題
- 1. 如何在ASP.NET中創建Web爬蟲?
- 2. C#web和ftp爬蟲庫
- 3. Rails是否爲Web爬蟲和殭屍程序創建會話?
- 4. 如何在Web爬蟲中使用Message Queue?
- 5. 如何在java中創建網絡爬蟲?
- 6. 如何在java中創建網絡爬蟲
- 7. 如何爲使用oauth2的網站構建Python爬蟲
- 8. 如何使網絡爬蟲更有效?
- 9. 如何爲Web爬蟲禁用Rails會話?
- 10. Python爬蟲 - html.fromstring
- 11. 爬蟲實例
- 12. 網絡爬蟲
- 13. Web爬蟲解析PHP/Javascript鏈接?
- 14. Node.js:創建Web Hook
- 15. 網絡爬蟲應用
- 16. Ruby中的Web爬蟲:如何實現最佳性能?
- 17. 如何在Java中設計一個Web爬蟲?
- 18. Perl Web爬蟲如何跟隨ASP.NET回發?
- 19. 開源C++爬蟲?
- 20. php爬蟲檢測
- 21. 重定向爬蟲
- 22. PHP網絡爬蟲
- 23. java網絡爬蟲
- 24. 爬蟲vs刮板
- 25. Python網絡爬蟲
- 26. 網絡爬蟲使用雙絞線
- 27. 在Solr中使用Nutch爬蟲
- 28. 使用python beautifulsoup進行網頁爬蟲
- 29. 錯誤使用C#網絡爬蟲
- 30. Instagram爬蟲沒有使用Instagram API?
這可能會感興趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27