2014-10-28 109 views
-1

我創建了一個腳本來獲取Google結果頁面的URL鏈接;該腳本可以正常工作,但它會在你阻止你的IP地址後最多運行3次。

我認爲這是因爲我的標題包含:python-requests/2.3.0 CPython/2.7.2 Windows/7。所以我試圖通過使用標題來改變它,並通過使用site來驗證結果。Python請求模塊probleme

這是我的頭:

headers = { 
"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0", 
"Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", 
"Accept-Language" : "en-US,en;q=0.5", 
"Connection" : "keep-alive",} 

但還是谷歌檢測我作爲一個機器人知道,當我與我的瀏覽器搜索一切工作正常。

如何解決此問題?

+1

[Google API速率限制]的可能重複(http://stackoverflow.com/questions/4662069/google-api-rate-limiting) – 2014-10-28 20:54:03

+0

Google在檢測機器人方面非常聰明,並且非常自由地應對驗證碼挑戰。 – 2014-10-28 20:57:41

+0

在你的要求之間休息。我在一個單一IP後面的大型辦公樓裏工作。我偶爾會遇到一個驗證碼,因爲顯然我們在那個時候都需要谷歌。 – 2014-10-28 20:57:49

回答

0

這不是你的腳本的問題。使用腳本自動抓取搜索結果違反了每個搜索引擎的服務條款。搜索引擎嗅探並阻止此類訪問。您必須使用Google的官方API之一來獲取您的數據。如Google Custom Search或類似的東西。