爲什麼urllib2需要很長時間閱讀？

-1

我正在寫一個簡單的程序來比較HTML頁面，但我目前的瓶頸是閱讀HTML文件。具體代碼：爲什麼urllib2需要很長時間閱讀？

htmldata1 = urllib2.urlopen(url1).read() 
    htmldata2 = urllib2.urlopen(url2).read()

該網址來自IMDB。我不知道爲什麼這麼長時間（平均約9秒）。當我只想用正則表達式搜索html文本時，它可能正在下載圖像。我從來沒有使用urllib2，所以任何幫助將不勝感激。

編輯：

我用一個例子網址是

「http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast」

來源

2017-09-01 jman

這將是很好，如果你能舉個實際的網址，以便其他人可以試一試，看看他們的經驗同樣的行爲。 – Eduardo

嘗試使用'urllib'，而不是'urllib2'？ –

@Eduardo剛剛舉了一個例子url。我的錯。 Abien，這個問題與urllib和urllib都存在。 – jman

的網頁是超慢加載（在服務器端）。這是千兆光纖：蟒蛇

In [4]: url1 = "http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast" 

In [5]: %time result = urllib2.urlopen(url1).read() 
CPU times: user 56.3 ms, sys: 21.6 ms, total: 77.9 ms 
Wall time: 2.16 s 

In [7]: %time result2 = requests.get(url1) 
CPU times: user 29.5 ms, sys: 6.35 ms, total: 35.9 ms 
Wall time: 2.18 s

與外界完全：

$ time curl -o/dev/null "http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast" 
    % Total % Received % Xferd Average Speed Time Time  Time Current 
           Dload Upload Total Spent Left Speed 
100 2173k 0 2173k 0  0 537k  0 --:--:-- 0:00:04 --:--:-- 540k 
curl -o/dev/null 0.01s user 0.03s system 0% cpu 4.074 total

來源

2017-09-02 02:07:51

爲什麼urllib2需要很長時間閱讀？

回答

相關問題