我試圖限制與JSoup下載的頁面/鏈接的大小,給出類似如下(Scala代碼):如何用jsoup限制下載大小?
val document = Jsoup.connect(theURL).get();
我想只得到前幾KB一個給定的頁面,並停止嘗試下載。如果有一個非常大的頁面(或者theURL
是一個不是html的鏈接,並且是一個大文件),我不想花時間下載其餘的。
我的用例是一個IRC bot的頁面標題snarfer。
獎金的問題:
有什麼理由Jsoup.connect(theURL).timeout(3000).get();
上沒有大文件超時?如果有人粘貼像永不落幕的音頻流或大ISO(可以通過在不同的線程中獲取URL標題來解決(或者使用Scala演員並在那裏定時)來解決這個問題),那麼它最終會導致bot僵住。但是,看起來像一個非常簡單的機器人,當我認爲timeout()
應該完成相同的最終結果)矯枉過正。