C＃web和ftp爬蟲庫

我需要一個庫（希望在C＃中！）作爲一個Web爬蟲來訪問HTTP文件和FTP文件。原則上，我很喜歡閱讀HTML，我想將它擴展爲PDF，WORD等。C＃web和ftp爬蟲庫

我很滿意初學者的開源軟件或至少是任何文檔說明。

你可能想看看我的實現。 https://stackoverflow.com/a/16975398/1610747 – Misterhex 2017-06-15 02:02:06

檢查NCrawler項目

簡單，非常高效的多線程網絡爬蟲用C＃編寫的基於流水線處理。包含HTML，文本，PDF和IFilter文檔處理器和語言檢測（Google）。輕鬆添加管道步驟來提取，使用和更改信息。

2010-10-18 18:43:03

+1：非常好的建議，我會給它一些測試，看看它是否可以幫助我。乍一看似乎如此。 – 2010-10-19 14:26:56

爲你做了這項工作？因爲我現在正在尋找類似的。 – 2011-03-30 09:57:55

是的，該項目是相當不錯..我最終使用了其他非常具體的需求，但NCrawler做得非常好，它的設計很好 – 2012-04-06 06:31:37

我開發了Crawler-Lib Framework的Crawler Engine。這是一個支持工作流的爬蟲程序，可以輕鬆擴展以執行任何類型的請求，甚至是您想要的處理。

以下是一些YouTube視頻，顯示出履帶庫引擎是如何工作的： http://www.youtube.com/user/CrawlerLib

我知道這個項目是不開源的，但有一個免費的版。

2013-12-28 08:50:04

回答