2009-09-17 67 views
2

我使用的是VSTS 2008 + C#+ .Net 3.5。我想找到一個工具(開源),它可以抓取網站的所有網頁,也可以查找通過此網站鏈接的任何其他域網頁,我想跳過抓取它們(我只需要該網頁的特定域只要)。對於已爬網的網頁,我想將它們存儲到本地文件目錄中。。基於網絡的網絡爬蟲示例

任何樣品或準備使用開源工具?

回答

4

Arachnode.net可能是你在找什麼。

+0

好東西,是有一個基於Web的界面,使我們可以使查詢對全文的分析結果? – George2 2009-09-17 16:49:04

+0

您好史蒂夫,Arachnode.net對於非en-us語言有多好?索引/搜索非法語言的任何經驗,如法國,日本?這種語言所需的任何插件? (我認爲關鍵字提取,索引和解析可能會因不同的語言而異?) – George2 2009-09-17 16:53:14

+0

感謝您的幫助,史蒂夫!我已經回答你的答覆了。 – George2 2009-09-18 08:46:25

3

我是AN的作者。

AN默認索引所有語言。沒什麼可配置的。

  • 邁克
+0

http://arachnode.net/ – 2010-10-05 23:28:43

+0

有一個網頁和一個服務界面來檢查你的結果。 爲AN刪除Wiki頁面確實令人失望。這個網頁已經出現了將近一年,直到有人標記爲止。儘管AN擁有數千用戶,但許多用戶確實將AN用於商業目的。由於AN是許多企業的基礎,我們的用戶對於公開他們如何獲取他們的數據有些猶豫。當然,這種鏈接是維基百科想要考慮「值得注意」的東西。而且,我懷疑商業應用的知名度要高一些。 – 2010-11-24 22:13:29

+0

此外,維基百科版主的個人選擇也會影響文章包含,因爲Web_Crawler類別中的其他爬蟲(http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers),例如http://en.wikipedia .org/wiki/Aspseek與AN一樣「顯着」。 ::麥克風 – 2010-11-24 22:14:19