無法在Python正確讀取HTML數據3

我想在Python 3閱讀以下頁面的HTML數據：無法在Python正確讀取HTML數據3

http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx

，我做了這種方式：

url=str(input('\n Paste URL here: '))  
url2=requests.get(url) 
html=url2.text 
print(html)

但它返回錯誤頁面的內容。

讓我補充一點，你可能會遇到Web瀏覽器相同的錯誤頁面，但要避免這種情況，在第一次打開這個地址可以解決這個問題：

http://dl.nlai.ir/ui/forms/Index.aspx

什麼是你的建議正確讀取數據？我想要獲取頁面內容以從源頁面提取base64編碼的字符串。

來源

2017-04-13 Nima Sajedi

你可能有一個錯誤涉及cookies。嘗試向「Index.aspx」頁面發出請求，解析標頭中收到的cookie，然後使用'cookies = my_cookies'將請求傳遞給它們' –

我是一名Python初學者，我不知道如何設置cookie。你能否詳細說明一下？謝謝 –

除非您先訪問「http://dl.nlai.ir/ui/forms/Index.aspx」，否則訪問「http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx」會得到錯誤的html。所以我想你需要會議得到的網址，像這樣

s = requests.Session() 
url1 = 'http://dl.nlai.ir/ui/forms/Index.aspx' 
url = 'http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx' 
s.get(url1) 
url2 = s.get(url) 
html = url2.text 
print(html)

來源

2017-04-13 10:56:01 douglee

謝謝，很好的答案。雖然我也必須設置標題，因爲它顯示「不支持瀏覽器」的錯誤。 –

嘗試了幾次後，似乎他們限制了[我的IP或會話等]的訪問權限，並顯示一個頁面「您無權查看此區域」，是否也可以繞過此限制？ –

試試這個：添加標題信息並使用代理IP。您的IP可能會被該網站禁止。 – douglee

無法在Python正確讀取HTML數據3

回答

相關問題