如何防止Httrack再次下載相同的文件？

這通常是頂級索引（index.html和 index-2.html）的情況。

這是一個常見問題，但不能輕易避免！例如，http://www.foobar.com/和 http://www.foobar.com/index.html可能是相同的頁面。但是如果網站中的鏈接既指http://www.foobar.com/也指 http://www.foobar.com/index.html，這兩個頁面將被捕獲。而因爲http://www.foobar.com/必須有一個名字，因爲你可能想要在本地瀏覽網站（/會給出一個目錄列表，而不是這個索引本身！），HTTrack必須找到一個。因此，將生成兩個index.html ，一個用-2表示該文件必須被重命名爲。

這可能是一個好主意，考慮http://www.foobar.com/和 http://www.foobar.com/index.html是相同的環節，避免重複文件，不是嗎？ NO，因爲頂部索引（/）可以參考的任意一個文件名，並且如果index.html通常是默認名稱，則可以選擇 index.htm，或者index.php3，mydog.jpg，或者任何你可以想象的。（有些網站管理員真的很瘋狂）

注意：在一些極少數情況下，當網站重定向到另一個文件時，可以找到重複的數據文件。這個問題應該很少，並且可能使用過濾器避免。

參見：Updating a project

來源

2014-06-30 15:51:00 kenorb

如何防止Httrack再次下載相同的文件？

回答

相關問題