如果您使用過IDM(Internet下載管理器),那麼它有一個名爲Grabber的項目,它可以在特殊網站中搜索並獲取文件和文件夾的網站,你可以使用IDM下載它們。如何獲取特殊網站的文件和文件夾,如同IDM中的IDM抓取器#
我想在C#中做類似的事情。我想下載html網頁並從這些網頁中提取鏈接。我還想檢測目錄並嘗試搜索其內容 - 可能會解析「Index Of」目錄列表頁面。
我怎麼會去這樣做呢?
如果您使用過IDM(Internet下載管理器),那麼它有一個名爲Grabber的項目,它可以在特殊網站中搜索並獲取文件和文件夾的網站,你可以使用IDM下載它們。如何獲取特殊網站的文件和文件夾,如同IDM中的IDM抓取器#
我想在C#中做類似的事情。我想下載html網頁並從這些網頁中提取鏈接。我還想檢測目錄並嘗試搜索其內容 - 可能會解析「Index Of」目錄列表頁面。
我怎麼會去這樣做呢?
使用regex
或使用HtmlAgilityPack
(http://htmlagilitypack.codeplex.com/)解析網站並找到指向文件的鏈接。您可能需要檢查文件的擴展名。 IE瀏覽器。僅解析以.zip|.exe|.msi|.rar|.png|.pdf|.gif|.jpg|.jpeg
結尾的鏈接。
如何在HtmlAgilityPack中執行此操作? –
加載頁面。解析頁面。使用Xpath查找所有「錨點」鏈接。獲取href,然後解析href。 – Jeremy
我曾經寫過一個「Web Spider」來做到這一點,併發布了source code over at Code Project。
如果你想以最終用戶的身份來做,我發現免費的Httrack Website Copier工作得很好。
幫助你到底是什麼?就目前而言,你的問題太模糊,無法回答。 – Oded
@Oded:現在我想在我的程序中有這樣的功能 –
是的,但是您沒有提出具體的編程問題。你有哪些部分有困難,代碼示例等請閱讀此:http://msmvps.com/blogs/jon_skeet/archive/2010/08/29/writing-the-perfect-question.aspx – Oded