2012-04-05 229 views
0

我正在創建一個網絡爬蟲。我是ganna給它一個URL,它將掃描.html文件的目錄和子目錄。我一直在尋找兩種方案:如何在網站目錄中查找文件?

  1. scandir($url)。這適用於本地文件,但不適用於http站點。這是因爲文件權限?我猜這是不應該的,因爲每個人都可以訪問你的網站文件是危險的。

  2. 正在搜索鏈接並關注它們。我可以在索引文件上做file_get_contents,找到鏈接,然後將它們跟在他們的.html文件中。

做這2件工作中的任何一件還是有第三種選擇?

回答

1

查找html文件的唯一方法是解析服務器返回的文件內容,除非他們在服務器上啓用了目錄瀏覽的小機會,這是通常禁用的第一件事情之一,您沒有訪問瀏覽目錄列表,只有他們準備向你展示的內容,並讓你使用。

你將不得不開始http://www.mysite.com並開始掃描鏈接到html文件,如果他們有asp/php或其他文件,然後返回html內容怎麼辦?

+0

這就是我的想法。我忘了說,但我當然也會搜索asp,php等。雖然,當爲.php使用file_get_contents時,我遇到了一個問題。它沒有得到由php迴應的內容。 – Michael 2012-04-05 10:04:13

+0

我沒有看到,除非它是phps,或者專門爲php腳本設計的。 – BugFinder 2012-04-05 10:07:52

+0

get_file_contents究竟做了什麼?它是否返回源代碼或實際的代碼? – Michael 2012-04-05 12:26:33

1

您是否在考慮使用wget?它可以抓取網站並僅下載具有特定擴展名的文件。

+0

thx!我一定會關注它的。 – Michael 2012-04-05 09:57:22

相關問題