2009-07-01 48 views
0

我正在編寫一個程序,該程序將幫助我找出鏈接到我的競爭對手的網站。爲了做到這一點,我正在編寫一個解析HTML文件的程序,並將生成2個列表:內部鏈接和外部鏈接。如何使用.NET RegEx解析HTML文件並找到1.外部鏈接。 2.內部鏈接

我將使用內部鏈接來進一步抓取網站,而外部鏈接實際上是我正在尋找的。

如何使用.NET RegEx解析HTML文件並找到1.外部鏈接。 2.內部鏈接。

在此先感謝, Eytan Levit。

編輯:在回答這個問題 - 不 - 我不受正則表達式,我可以使用任何其他的想法。

+0

你必然的正則表達式,或第三方DOM的解析庫可太習慣? – 2009-07-01 15:36:38

回答

8

請勿爲此使用正則表達式。

使用類似HTML Agility Pack這是專門爲解析HTML而設計的。 (他們的CodePlex主頁上甚至有一個例子可以找到頁面中的所有鏈接。)

+0

它是有效的(我的意思是有一天我不打算把我的應用程序變成一個真正的網絡蜘蛛) – 2009-07-01 15:37:37

0

我曾經使用Regex進行Html解析,但速度真的很快,但現在有更好的選擇可以降低開發成本。

嘗試Linq To Html這是很好的,貝斯有關於它的偉大的職位,可以發現here