我負責編寫Web僞爬網程序以計算某些統計信息。我需要測量以<DOCTYPE
開頭的html文件的百分比與沒有它的html文件的數量並比較不同主題上的站點之間的統計。要這樣做的想法是谷歌搜索不同的條款(如「汽車」,「股票交易所」,「抽脂」...),並要求找到前300頁。爲Web統計信息編寫僞爬網程序
我想這個過程非常快,但我不想被谷歌禁止。當然,我希望儘可能縮短開發時間。也許一些愚蠢的Perl腳本。
是否有任何現成的解決方案,我可以並應該重用?對於Google,我沒有找到合適的東西,因爲我想測量的不是HTML的一部分,而是駐留在HTML文件中。
+1 wget的是真棒,我用了很多。但是,有些人需要GUI :) – 2009-12-06 15:46:23
無頭跑步的能力對我來說是一種獎勵。其實這是我最初的想法。我應該從perl中調用wget,並在循環中使用google的url,而不是在嵌套循環中運行wget?我沒有找到如何爲wget中的單個文件設置配額。 – Muxecoid 2009-12-06 16:03:59
我在想你可以使用'--wait = SECONDS'或'--random-wait',可能使用遞歸標誌'-r'。 – 2009-12-06 16:12:57