我有下面的代碼,它的工作原理。將網頁下載到文本文件
Imports System.IO
Imports System.Net
Module Module1
Sub Main()
Dim webClient1 As New WebClient()
webClient1.Encoding = System.Text.Encoding.ASCII
webClient1.DownloadFile("http://www.bmreports.com/servlet/com.logica.neta.bwp_MarketIndexServlet?displayCsv=true", "C:\temp\stream.txt")
End Sub
End Module
這創建了文本文件,但它也下載了所有的html。我怎樣才能省略這個,只是得到頁面上顯示的文字?
然後,你需要解析整個html文本,提取需要的文本(使用正則表達式/ manaually)並插入到文本文件中。 – mit
使用'HtmlAgilityPack'解析html。 html文件中沒有「純文本模式」。 –