2017-04-13 70 views
1

我想在Python 3閱讀以下頁面的HTML數據:無法在Python正確讀取HTML數據3

http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx 

,我做了這種方式:

url=str(input('\n Paste URL here: '))  
url2=requests.get(url) 
html=url2.text 
print(html) 

但它返回錯誤頁面的內容。

讓我補充一點,你可能會遇到Web瀏覽器相同的錯誤頁面,但要避免這種情況,在第一次打開這個地址可以解決這個問題:

http://dl.nlai.ir/ui/forms/Index.aspx 

什麼是你的建議正確讀取數據?我想要獲取頁面內容以從源頁面提取base64編碼的字符串。

+0

你可能有一個錯誤涉及cookies。嘗試向「Index.aspx」頁面發出請求,解析標頭中收到的cookie,然後使用'cookies = my_cookies'將請求傳遞給它們' –

+0

我是一名Python初學者,我不知道如何設置cookie。你能否詳細說明一下?謝謝 –

回答

1

除非您先訪問「http://dl.nlai.ir/ui/forms/Index.aspx」,否則 訪問「http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx」會得到錯誤的html。所以我想你需要會議得到的網址,像這樣

s = requests.Session() 
url1 = 'http://dl.nlai.ir/ui/forms/Index.aspx' 
url = 'http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx' 
s.get(url1) 
url2 = s.get(url) 
html = url2.text 
print(html) 
+0

謝謝,很好的答案。雖然我也必須設置標題,因爲它顯示「不支持瀏覽器」的錯誤。 –

+0

嘗試了幾次後,似乎他們限制了[我的IP或會話等]的訪問權限,並顯示一個頁面「您無權查看此區域」,是否也可以繞過此限制? –

+0

試試這個:添加標題信息並使用代理IP。您的IP可能會被該網站禁止。 – douglee