我使用的HTTrack下載這個網站: http://4minutearticles.com/如何防止Httrack再次下載相同的文件?
然而,問題是,作者有他的網站的每個頁面上的鏈接返回到主頁
例如http://4minutearticles.com/ext/
的父目錄鏈接重定向到主頁面 並且軟件再次開始下載
如何防止此循環發生?
我使用的HTTrack下載這個網站: http://4minutearticles.com/如何防止Httrack再次下載相同的文件?
然而,問題是,作者有他的網站的每個頁面上的鏈接返回到主頁
例如http://4minutearticles.com/ext/
的父目錄鏈接重定向到主頁面 並且軟件再次開始下載
如何防止此循環發生?
閱讀的答案,下面提供的鏈接上的問題:
「!?我有重複的文件,這是怎麼回事」
鏈接:http://www.httrack.com/html/faq.html#Q1b11
也有看看:以下鏈接 「過濾器高級」:
http://www.httrack.com/html/filters.html
它可以幫助你在你的問題。
您可以使用過濾器來阻止HTTRACK下載相同的文件或文件夾。您可以通過點擊「首選項和鏡像選項」標籤前面的「設置選項」按鈕,然後打開「掃描規則」選項卡,然後打開「排除鏈接」按鈕來設置規則。
這通常是頂級索引(index.html和 index-2.html)的情況。
這是一個常見問題,但不能輕易避免!例如,http://www.foobar.com/和 http://www.foobar.com/index.html可能是相同的頁面。但是如果網站中的鏈接 既指http://www.foobar.com/也指 http://www.foobar.com/index.html,這兩個頁面將被捕獲。而 因爲http://www.foobar.com/必須有一個名字,因爲你可能想要 在本地瀏覽網站(/會給出一個目錄列表,而不是 這個索引本身!),HTTrack必須找到一個。因此,將生成兩個index.html ,一個用-2表示該文件必須被重命名爲 。
這可能是一個好主意,考慮http://www.foobar.com/和 http://www.foobar.com/index.html是相同的環節,避免 重複文件,不是嗎? NO,因爲頂部索引(/)可以參考 的任意一個文件名,並且如果index.html通常是默認名稱,則可以選擇 index.htm,或者index.php3,mydog.jpg,或者任何你可以想象的 。 (有些網站管理員真的很瘋狂)
注意:在一些極少數情況下,當網站重定向到另一個文件時,可以找到重複的數據文件。這個問題應該很少,並且可能使用過濾器避免 。
呀,這樣做,但沒有成功。仍在循環http://www.4minutearticles.com/ext/images – 2012-08-10 05:46:55