2014-04-01 137 views
1

每個月我都運行我的腳本以下載Google Trends CSV文件以供我的研究,並且我有大約1000個搜索條件。我知道着名的「您已達到配額限制,請稍後再試」錯誤消息,因此我使用了Mechanize python模塊來提供cookie。這是我的電話:下載Google Trends CSV文件(來自AWS)

import mechanize # other imports omitted for simplicity 

br = mechanize.Browser() 

cj = cookielib.LWPCookieJar() 
br.set_cookiejar(cj) 

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')] 

response = br.open('https://accounts.google.com/ServiceLogin?hl=en&continue=https://www.google.com/') 
forms = mechanize.ParseResponse(response) 
form = forms[0] 
form['Email'] = username 
form['Passwd'] = password 
response = br.open(form.click()) 

Result = br.open("http://www.google.com/trends/trendsReport?q=SearchTerm&export=1") 
CSVcontent = csv.reader(StringIO(Result.read())) 

在我的實際腳本中,我有一個睡眠時間規格,從1到5秒不等。

但是,使用這些方法,我一次只能下載大約350個CSV文件。運行後,即使我在另一個AWS實例(不同地區,具有相同的Google帳戶憑據)上重新運行我的腳本,我也只能在配額限制用完之前下載2個術語。

我也嘗試在同一個實例上重新運行腳本,但使用了不同的Google憑據,但發生了同樣的情況(僅限2個CSV下載)。

最糟糕的是,即使在一個月後,我仍然每天只能使用我的腳本(幾個月)前使用的Google憑據下載2個CSV文件。

因此,我猜Google會監控用戶在IP地址級別以及用戶帳戶級別的下載量,並標記下載量過大的帳戶。

我的問題:

有誰能告訴我是否有一種有償服務或API 即配額限制自由?

或者有沒有辦法繞過谷歌的監測(通過使用Tor或其他 方法)?但即使使用Tor,我仍然需要Google帳戶憑證 對不對?

有沒有辦法下載沒有 用戶名/密碼的Google Trends數據(這樣我可以使用AWS自動擴展,因爲每個IP地址可以至少下載2個CSV文件,所以我可以使用 )?

任何幫助和開箱即用的想法將不勝感激。

回答

-2

有沒有辦法下載谷歌趨勢數據,而無需用戶名/密碼

是的,有一種方法可以讓您的數據,而無需登錄(我現在,它是在它的測試看起來不錯,但這也是我不能分享的一個祕密,因爲我不會放棄它)。

我可以分享一下,我在週末下載的文件數量在3,000到5,000之間,幾乎和你一樣,我每個週末都會這樣做。 (2個IP,2個ID)

我唯一能給的就是不要砸Google。如果你錘擊他們那裏系統會把你關閉

我發現一個1.5到2分鐘的休息會幫助你。

這樣看:一天24小時,即1440分鐘。如果你每隔2分鐘就要提取一個720個文件的文件。

而且他們也不會阻止你,如果你把一個隨機時間函數,他們不能告訴你是否是你或腳本。

只下載2 CSV文件的每一天,我在我的腳本(情侶)月(S)使用谷歌憑證前

,如果你不使用的帳戶了它會重置一週左右;另外,如果你可以更新你的IP,這將有所幫助。

+0

嗨jnovo/Skittles: 非常感謝你的回答,很高興知道其他人也在做與我一樣的事情。 我有一個隨機時間函數,但它只是從1秒到5秒不等。我一定會嘗試休息1.5〜2分鐘。此外,我感謝您如何恢復被阻止的帳戶的幫助。當時間到了,你感覺很舒服,我會非常感興趣的看看你的「祕密」方法。唉你的幫助深表謝意! 未來如果您想聯繫我們,您可以發送電子郵件至:[email protected],這是我用於下載的帳戶之一:-) – user3417321

+0

請分享方式,如果有的話! –