如果我只需要下載自上次下載以來沒有改變的頁面,該怎麼辦? 什麼是最好的方法?我可以先得到頁面的大小,然後比較決定它是否已經改變,如果是這樣,我要求下載其他跳過?我們只能得到網頁標題信息而不是正文? (機械化)
我打算使用(python)機械化。
如果我只需要下載自上次下載以來沒有改變的頁面,該怎麼辦? 什麼是最好的方法?我可以先得到頁面的大小,然後比較決定它是否已經改變,如果是這樣,我要求下載其他跳過?我們只能得到網頁標題信息而不是正文? (機械化)
我打算使用(python)機械化。
請求應該是一個HEAD,而不是一個GET:
9.4 HEAD
的HEAD方法等同於GET 除了服務器不能返回 消息正文中響應。響應於HEAD請求 的HTTP 頭中包含的元信息應當與響應於GET請求發送的信息 相同。 此方法可用於獲取 有關實體 的元信息,該請求暗示請求沒有 傳輸實體主體本身。 此方法通常用於測試 有效性的超文本鏈接, 可訪問性和最近的 修改。
到HEAD請求的響應可以是在這個意義上 緩存包含在響應 的 信息可被用於更新從該資源的先前 高速緩存的實體。如果 新的字段值表明 緩存的實體從目前 實體的不同(如將在內容長度,內容,MD5, ETag的或上次修改一個 變化來表示),那麼緩存 必須把緩存條目爲陳舊。
請看這裏How can I perform a HEAD request with the mechanize library?
是的,你可以通過這樣設置這樣
br = mechanize.Browser()
br.set_debug_http(True)
br.set_debug_redirects(True)
... Your code here ...
得到蟒蛇機械化的更多信息,你可以得到網頁的有價值的頭信息