如何打開一個URL並在Python中提取信息

我已經寫了一個web-scrape來提取谷歌學者信息。但是，任何方便的工具（如urllib2 pr請求失敗）。它給了我503錯誤代碼。如何打開一個URL並在Python中提取信息

而我正在尋找另一種提取信息的方法。有可能我可以讓程序在瀏覽中打開url並提取信息。

例如，它是一個鏈接：

'http://scholar.google.com/citations?user=lTCxlGYAAAAJ&hl=en'

以及如何繼續獲得H-指數等？

來源

2016-11-08 Daniel

http://docs.python-guide.org/en/latest/scenarios/scrape/ – SteveJ

不，這是行不通的。仍然是「503」錯誤。 – Daniel

看起來Google Scholar禁止客戶暫時（使用503錯誤代碼）進行頻繁查詢或看起來是自動的。在您經常查詢或因爲它認爲您正在使用腳本運行後，您可能已被暫時禁止。您可以使用Cookie在單個會話中執行多個查詢。或者等到禁令解除，或者在嘗試之間等待或者編寫腳本以使其看起來像來自Web瀏覽器（更改它在其查詢中發送的'userAgent'字符串）。

谷歌搜索「谷歌學者503」有關這個主題的很多信息（這就是我所做的）。

也是這個話題請參見：503 error when trying to access Google Patents using python

來源

2016-11-08 22:27:41

那麼，我實際上做了一些研究，但幾乎找不到有用的解決方案。 – Daniel

你需要在你的原始問題中包括你研究，發現，嘗試過的內容等。例如，你是否在我鏈接的頁面上的答案和評論中嘗試瞭解決方案（即請求之間的睡眠等）？他們失敗了嗎？你讀過重試後的頭文件嗎？告訴我們你的代碼。 –

如何打開一個URL並在Python中提取信息

回答

相關問題