2012-08-09 32 views

回答

0

可能是所有鏈接的文件(a,鏈接,腳本,img,對象)。 是否有多次出現的相同內容?

檢查下載的深度,以及它是否總是在同一個域中。

+0

裏面有一個名爲4minutearticles.com的文件夾。 這是否意味着它是重複的? 我正在使用下載的所有文件+問題 – 2012-08-09 11:06:57

+0

現在它已超過3000個文件數 – 2012-08-09 11:08:57

+0

我不知道htttrack ...但可能有一個問題像我提到的那些...你使用的工具! (例如,grep會爲你做到這一點......或一些好的webscrapers)。 – N4553R 2012-08-09 11:25:23