0
我想用urllib2或機械化(使用.read())下載一些html源代碼。不幸的是,我想要的來源是相當大的。我只是得到一個長度高達65747個字符的字符串(包含兩個庫)。剩下的尾巴不考慮。這真的讓我感到困擾,我不知道如何處理這個問題。有人可以給我一個提示嗎?使用urllib2/mechanize在python中加載html源碼
編輯:這是我使用的代碼片段。
cj = cookielib.LWPCookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
dataHTML = ""
fp = opener.open(url)
while 1:
r = fp.read()
if r == '':
break
dataHTML += r
這裏是完整的解決方案:http://stackoverflow.com/questions/1824069/urllib2-not-retrieving-entire-http-response – 2013-03-21 15:26:37
唯一的解決方案與urlretrieve()或readlines()(我還沒有測試過)並不令人滿意。請注意,所有其他解決方案至少不起作用。 – SpaceMonkey 2013-03-21 16:20:19
此解決方案有效。我在我的Python解釋器行中運行。 http://stackoverflow.com/a/4268012/399704 – 2013-03-21 17:13:39