2013-04-09 39 views
0

我使用Python的請求庫來抓取一堆網頁,但偶爾爬行程序會偶然發現一個絕對龐大的頁面,無論是PDF還是視頻或其他龐大的文件。有沒有限制文件下載的最大尺寸的好方法?使用Python請求庫的Cap下載大小

+1

你可以檢查標題中的內容類型並確保它不是pdf或視頻,或者如果它與urllib2類似,可以通過'read()'函數讀取最大字節數:'urllib2.urlopen('htpp:// page.com')。閱讀(1024)' – 2013-04-09 08:20:57

回答

2

的的urlopen對象有一個方法信息(),它提供了各種有用的頭信息,包括內容長度

系統有時這是不正確的設置,但應該是在大多數情況下,將有助於