2009-12-06 55 views
1

我負責編寫Web僞爬網程序以計算某些統計信息。我需要測量以<DOCTYPE開頭的html文件的百分比與沒有它的html文件的數量並比較不同主題上的站點之間的統計。要這樣做的想法是谷歌搜索不同的條款(如「汽車」,「股票交易所」,「抽脂」...),並要求找到前300頁。爲Web統計信息編寫僞爬網程序

我想這個過程非常快,但我不想被谷歌禁止。當然,我希望儘可能縮短開發時間。也許一些愚蠢的Perl腳本。

是否有任何現成的解決方案,我可以並應該重用?對於Google,我沒有找到合適的東西,因爲我想測量的不是HTML的一部分,而是駐留在HTML文件中。

回答

2

wget可以做一切事情,包括限制您的請求率。

+1

+1 wget的是真棒,我用了很多。但是,有些人需要GUI :) – 2009-12-06 15:46:23

+0

無頭跑步的能力對我來說是一種獎勵。其實這是我最初的想法。我應該從perl中調用wget,並在循環中使用google的url,而不是在嵌套循環中運行wget?我沒有找到如何爲wget中的單個文件設置配額。 – Muxecoid 2009-12-06 16:03:59

+1

我在想你可以使用'--wait = SECONDS'或'--random-wait',可能使用遞歸標誌'-r'。 – 2009-12-06 16:12:57

0

HTTrack也相當不錯,易於使用。有一個很好的圖形用戶界面和很多選項。

源也可以,如果你正在尋找靈感:here

+2

wget適用於Windows:http://gnuwin32.sourceforge.net/packages/wget.htm – 2009-12-06 15:51:00

+0

不錯,我認爲它需要Cygwin。很高興知道,現在下載... :) – 2009-12-06 15:54:38

+0

根據John Paulett的上述評論編輯我的答案;) – 2009-12-06 15:56:49