如何使用Node.js創建Web爬蟲？

我剛剛對搜索引擎的工作方式感興趣，並且發現他們使用「機器人」或「網絡爬蟲」。我立即開始想知道這些事情是如何工作的，我想創造一個！所以，首先：你如何製作一個從服務器請求頁面的程序？如果你在JavaScript中給了我一個簡單的例子（我使用Node將它作爲正常的腳本語言運行），那將會非常棒。接下來，有沒有讓我解釋HTML的Node模塊？爲我創建一個DOM，以便我可以循環所有鏈接等等？糾正我，如果我錯了，但我想它是這樣做的... C++，C或Python中的任何示例也受到熱烈歡迎，但我更喜歡JS或Python，因爲我更熟悉高級腳本語言。如何使用Node.js創建Web爬蟲？

來源

2011-12-26 corazza

這可能會感興趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27

獲取HTTP網頁：node http.get（例如有）
DOM文檔：jsdom（也包括示例）

來源

2011-12-26 12:28:13

謝謝！這正是我正在尋找的東西，現在，還有一件事：我如何將這兩者結合起來？用http.get加載頁面，然後將其提供給jsdom？ – corazza 2011-12-26 12:41:56

這是正確的。 – 2011-12-26 12:42:33

好吧，很好，但是我要餵它，怎麼樣？「res」對象？到jsdom.env？ – corazza 2011-12-26 12:46:23

如何使用Node.js創建Web爬蟲？

回答

相關問題