2011-06-29 65 views
0

我用wget'下載'一個網站。網絡抓取和robots.txt

的wget -r http://www.xyz.com

ⅰ)它返回一個的CSS文件,的.js文件,的index.php和圖像img1.jpg

ⅱ)但是,在xyz.com下有更多圖片。我輸入www.xyz.com/Img2.jpg因此

得到了一張圖片。

iii)但是index.php涉及單個圖像,即img1.jpg

IV)的機器人文件伴隨着它包含禁止:

應在命令行中取得了什麼變化的情況下xyz.com返回的一切,這不是

引用index.php,但在目錄中是靜態的。

+1

沒有辦法知道服務器上有什麼資源存在於猜測之中。 – Quentin

回答

5

不可能。 wget應該如何知道目錄中的其他文件,除非你有鏈接到某個地方的文件?

+0

True ...我的理解是,默認情況下登錄頁面是「index.php」或「index.html」。所以wget掃描「index.php」只返回它引用的圖像(文件)...有什麼辦法來拉下「xyz.com」下所有沒有被引用的圖像...? – gir3191

+0

僅當Web服務器配置爲提供該目錄中的文件列表時(通常不包含index.html文件) – nfechner

+0

僅當列表目錄被啓用並且可能還有其他一些低安全性的東西時。 – Fredrik