2013-12-14 48 views

回答

2

我想你要找的是一個網絡爬蟲:https://en.wikipedia.org/wiki/Web_crawler

在高層次上,您請求的基本頁面,然後要求所有的頁面上鍊接的網頁。繼續這個過程應該產生網站上引用的所有URL。但是,如果www.blabla.com/blabla2.html是真實網頁,但實際上從未鏈接到網站上,則此過程無法找到它。

3

不,這是不可能的。因爲主域 後面的名稱大多是虛擬的。 意味着該名稱後面的資源不能是具體文件 或具體網頁

只有至少訪問過每個網址一次,您才能知道它。比其他答案提到的WebCrawler更有意義。

我的回答也意味着現在有惡意軟件檢查什麼是布萊恩。

看看Unix的wget。這提供了很好的可能性。

+2

用於培養wget的+1。維基百科對它的功能和注意事項有一個非常好的描述:https://en.wikipedia.org/wiki/Wget#Recursive_download – thesquaregroot

+0

@thesquaregroot thx爲你達成一致。你給我的鏈接對我來說很好,特別是它的名字。即使我不認爲它在安全的網絡中正常工作。 – Diversity