2011-12-26 100 views
4

我剛剛對搜索引擎的工作方式感興趣,並且發現他們使用「機器人」或「網絡爬蟲」。我立即開始想知道這些事情是如何工作的,我想創造一個!所以,首先:你如何製作一個從服務器請求頁面的程序?如果你在JavaScript中給了我一個簡單的例子(我使用Node將它作爲正常的腳本語言運行),那將會非常棒。接下來,有沒有讓我解釋HTML的Node模塊?爲我創建一個DOM,以便我可以循環所有鏈接等等?糾正我,如果我錯了,但我想它是這樣做的... C++,C或Python中的任何示例也受到熱烈歡迎,但我更喜歡JS或Python,因爲我更熟悉高級腳本語言。如何使用Node.js創建Web爬蟲?

+0

這可能會感興趣.. https://github.com/cgiffard/ node-simplecrawler – Opentuned 2012-12-03 13:52:27

回答

3
+0

謝謝!這正是我正在尋找的東西,現在,還有一件事:我如何將這兩者結合起來?用http.get加載頁面,然後將其提供給jsdom? – corazza 2011-12-26 12:41:56

+1

這是正確的。 – 2011-12-26 12:42:33

+0

好吧,很好,但是我要餵它,怎麼樣? 「res」對象?到jsdom.env? – corazza 2011-12-26 12:46:23