爲Web統計信息編寫僞爬網程序

我負責編寫Web僞爬網程序以計算某些統計信息。我需要測量以<DOCTYPE開頭的html文件的百分比與沒有它的html文件的數量並比較不同主題上的站點之間的統計。要這樣做的想法是谷歌搜索不同的條款（如「汽車」，「股票交易所」，「抽脂」...），並要求找到前300頁。爲Web統計信息編寫僞爬網程序

我想這個過程非常快，但我不想被谷歌禁止。當然，我希望儘可能縮短開發時間。也許一些愚蠢的Perl腳本。

是否有任何現成的解決方案，我可以並應該重用？對於Google，我沒有找到合適的東西，因爲我想測量的不是HTML的一部分，而是駐留在HTML文件中。

來源

2009-12-06 Muxecoid

wget可以做一切事情，包括限制您的請求率。

來源

2009-12-06 15:42:32

+1 wget的是真棒，我用了很多。但是，有些人需要GUI :) – 2009-12-06 15:46:23

無頭跑步的能力對我來說是一種獎勵。其實這是我最初的想法。我應該從perl中調用wget，並在循環中使用google的url，而不是在嵌套循環中運行wget？我沒有找到如何爲wget中的單個文件設置配額。 – Muxecoid 2009-12-06 16:03:59

我在想你可以使用'--wait = SECONDS'或'--random-wait'，可能使用遞歸標誌'-r'。 – 2009-12-06 16:12:57

HTTrack也相當不錯，易於使用。有一個很好的圖形用戶界面和很多選項。

源也可以，如果你正在尋找靈感：here

來源

2009-12-06 15:44:11

wget適用於Windows：http://gnuwin32.sourceforge.net/packages/wget.htm – 2009-12-06 15:51:00

不錯，我認爲它需要Cygwin。很高興知道，現在下載... :) – 2009-12-06 15:54:38

根據John Paulett的上述評論編輯我的答案;） – 2009-12-06 15:56:49

爲Web統計信息編寫僞爬網程序

回答

相關問題