2016-11-08 58 views
0

我已經寫了一個web-scrape來提取谷歌學者信息。但是,任何方便的工具(如urllib2 pr請求失敗)。它給了我503錯誤代碼。如何打開一個URL並在Python中提取信息

而我正在尋找另一種提取信息的方法。有可能我可以讓程序在瀏覽中打開url並提取信息。

例如,它是一個鏈接:

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en' 

以及如何繼續獲得H-指數等?

+0

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

+0

不,這是行不通的。仍然是「503」錯誤。 – Daniel

回答

0

看起來Google Scholar禁止客戶暫時(使用503錯誤代碼)進行頻繁查詢或看起來是自動的。在您經常查詢或因爲它認爲您正在使用腳本運行後,您可能已被暫時禁止。您可以使用Cookie在單個會話中執行多個查詢。或者等到禁令解除,或者在嘗試之間等待或者編寫腳本以使其看起來像來自Web瀏覽器(更改它在其查詢中發送的'userAgent'字符串)。

谷歌搜索「谷歌學者503」有關這個主題的很多信息(這就是我所做的)。

也是這個話題請參見:503 error when trying to access Google Patents using python

+0

那麼,我實際上做了一些研究,但幾乎找不到有用的解決方案。 – Daniel

+0

你需要在你的原始問題中包括你研究,發現,嘗試過的內容等。例如,你是否在我鏈接的頁面上的答案和評論中嘗試瞭解決方案(即請求之間的睡眠等)?他們失敗了嗎?你讀過重試後的頭文件嗎?告訴我們你的代碼。 –