2012-10-17 43 views
0

我一直在研究一個程序,該程序可以監視我的哪些公司客戶端連接到我們的網站。如果我能得到它的工作,這將節省大量的時間浪費手動搜索客戶網站。Visual Basic - 從SourceCode獲取URL列表

目前我有一個數據庫,存儲所有客戶主頁的網址。我的程序正在循環這些URL,抓取它們的SourceCode並將SourceCode放入一個文本框中。然後,它通過文本框搜索我的公司URL,並返回「True」或「False」值。

如果'真',那麼鏈接存在,但如果'假'我需要我的程序搜索同一站點上的其他頁面,並檢查鏈接是否存在於其他地方。

爲此,我需要我的程序循環訪問SourceCode(已在文本框中),並查找鏈接到同一站點上其他頁面的所有其他URL(例如www.example.com,www.example.com/聯繫我們,www.example.com/about)並將它們存儲在列表中。我不知道如何做到這一點?

回答

0

如何基於一個解決方案...

Regex Help: Get list of URL(s) except extention .css, .js, .jpg, .gif, .png

  Dim MyRegex As New Regex("href=""(?<URL>(?:(?!javascript)(?!#))[a-zA-Z0-9\~\!\@\#\$" + "\%\^\&amp;\*\(\)_\-\=\+\\\/\?\.\:\;\'\,]+)" + "(?<!(?:\.png|\.js|\.jpg|\.jpeg|\.css|\.gif|\.zip|\.r" + "ar))""(?:$|>|\s)", RegexOptions.Multiline Or RegexOptions.CultureInvariant Or RegexOptions.Compiled) 

      Dim matches As MatchCollection = MyRegex.Matches(textbox1.text) 
      For Each item In matches 
       ListBox1.Items.Add(item.ToString()) 

      Next 

然後你需要過濾掉不相關的網站?

+0

非常感謝我的伴侶! – Ben

+0

很高興能幫到你! :-D – PGallagher