如何在網站目錄中查找文件？

我正在創建一個網絡爬蟲。我是ganna給它一個URL，它將掃描.html文件的目錄和子目錄。我一直在尋找兩種方案：如何在網站目錄中查找文件？

做這2件工作中的任何一件還是有第三種選擇？

2012-04-05 Michael

查找html文件的唯一方法是解析服務器返回的文件內容，除非他們在服務器上啓用了目錄瀏覽的小機會，這是通常禁用的第一件事情之一，您沒有訪問瀏覽目錄列表，只有他們準備向你展示的內容，並讓你使用。

你將不得不開始http://www.mysite.com並開始掃描鏈接到html文件，如果他們有asp/php或其他文件，然後返回html內容怎麼辦？

2012-04-05 09:39:15 BugFinder

這就是我的想法。我忘了說，但我當然也會搜索asp，php等。雖然，當爲.php使用file_get_contents時，我遇到了一個問題。它沒有得到由php迴應的內容。 – Michael 2012-04-05 10:04:13

我沒有看到，除非它是phps，或者專門爲php腳本設計的。 – BugFinder 2012-04-05 10:07:52

get_file_contents究竟做了什麼？它是否返回源代碼或實際的代碼？ – Michael 2012-04-05 12:26:33

您是否在考慮使用wget？它可以抓取網站並僅下載具有特定擴展名的文件。

2012-04-05 09:41:00

thx！我一定會關注它的。 – Michael 2012-04-05 09:57:22

回答