2011-04-06 56 views
-1

我想使用C#或VB.NET來抓取網站。我希望抓取工具從網頁中提取網址,並且還希望抓取工具能夠跟蹤網址,以便我可以從網站中提取所有網址。從整個網站中提取所有網址

我該怎麼寫呢?

+0

我這樣做是在C++類之前,這是不是太難以實施。如果你喜歡,我所有的代碼都是開源的。 – tjameson 2011-04-06 09:41:14

+0

這裏有幾個例子。 [網絡爬蟲1](http://www.codeproject.com/KB/IP/Crawler.aspx)[網絡爬蟲2](http://social.msdn.microsoft.com/forums/en-US/csharpgeneral/線程/ 8fecf702-04d9-4ee8-854e-0a31b3c01176) – Jethro 2011-04-06 09:38:20

+0

鏈接不適用於我... – tjameson 2011-04-06 09:40:16

回答

1

這種情況下的網站是什麼?

本地虛擬目錄? 一個靜態網頁? 動態網頁託管在某個地方?

wget --mirror 

捲曲可以有選擇這裏了。

另外,請讀了有關robots.txt開始刮淨:)