2017-09-01 132 views
-1

我正在寫一個簡單的程序來比較HTML頁面,但我目前的瓶頸是閱讀HTML文件。具體代碼:爲什麼urllib2需要很長時間閱讀?

htmldata1 = urllib2.urlopen(url1).read() 
    htmldata2 = urllib2.urlopen(url2).read() 

該網址來自IMDB。我不知道爲什麼這麼長時間(平均約9秒)。當我只想用正則表達式搜索html文本時,它可能正在下載圖像。我從來沒有使用urllib2,所以任何幫助將不勝感激。

編輯:

我用一個例子網址是

http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast

+0

這將是很好,如果你能舉個實際的網址,以便其他人可以試一試,看看他們的經驗同樣的行爲。 – Eduardo

+0

嘗試使用'urllib',而不是'urllib2'? –

+0

@Eduardo剛剛舉了一個例子url。我的錯。 Abien,這個問題與urllib和urllib都存在。 – jman

回答

0

的網頁是超慢加載(在服務器端)。這是千兆光纖:蟒蛇

In [4]: url1 = "http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast" 

In [5]: %time result = urllib2.urlopen(url1).read() 
CPU times: user 56.3 ms, sys: 21.6 ms, total: 77.9 ms 
Wall time: 2.16 s 

In [7]: %time result2 = requests.get(url1) 
CPU times: user 29.5 ms, sys: 6.35 ms, total: 35.9 ms 
Wall time: 2.18 s 

與外界完全:

$ time curl -o/dev/null "http://www.imdb.com/title/tt0944947/fullcredits?ref_=tt_cl_sm#cast" 
    % Total % Received % Xferd Average Speed Time Time  Time Current 
           Dload Upload Total Spent Left Speed 
100 2173k 0 2173k 0  0 537k  0 --:--:-- 0:00:04 --:--:-- 540k 
curl -o/dev/null 0.01s user 0.03s system 0% cpu 4.074 total 
相關問題