2010-10-18 73 views
2

我需要一個庫(希望在C#中!)作爲一個Web爬蟲來訪問HTTP文件和FTP文件。原則上,我很喜歡閱讀HTML,我想將它擴展爲PDF,WORD等。C#web和ftp爬蟲庫

我很滿意初學者的開源軟件或至少是任何文檔說明。

+0

你可能想看看我的實現。 https://stackoverflow.com/a/16975398/1610747 – Misterhex 2017-06-15 02:02:06

回答

4

檢查NCrawler項目

簡單,非常高效的多線程網絡爬蟲用C#編寫的基於流水線處理。包含HTML,文本,PDF和IFilter文檔處理器和語言檢測(Google)。輕鬆添加管道步驟來提取,使用和更改信息。

+0

+1:非常好的建議,我會給它一些測試,看看它是否可以幫助我。乍一看似乎如此。 – 2010-10-19 14:26:56

+0

爲你做了這項工作?因爲我現在正在尋找類似的。 – 2011-03-30 09:57:55

+0

是的,該項目是相當不錯..我最終使用了其他非常具體的需求,但NCrawler做得非常好,它的設計很好 – 2012-04-06 06:31:37

1

我開發了Crawler-Lib Framework的Crawler Engine。這是一個支持工作流的爬蟲程序,可以輕鬆擴展以執行任何類型的請求,甚至是您想要的處理。

這裏是發動機: http://www.crawler-lib.net/crawler-lib-engine

以下是一些YouTube視頻,顯示出履帶庫引擎是如何工作的: http://www.youtube.com/user/CrawlerLib

我知道這個項目是不開源的,但有一個免費的版。