2015-02-05 55 views
0

我試圖製作一個正則表達式來抓取互聯網標籤元素的標題。特別是在這link如何獲得標籤元素的標題類正則表達式

你如何看到有一些團隊的表「Classifica」,我會抓住「Ultime 5 partite」形式,如果用戶在彩色框上重疊鼠標出現特定團隊結果天。我會抓這個標題班;所以我意識到這樣的正則表達式:

我做一個正則表達式是這樣的:.giornata_1_casa = Val(Regex.Match(Content, "<a href=""(.*)"" class=""(.*)"" title=""(.*)"">[D|W|L]</a>").Groups(1).ToString)

但回到我的0,我想抓住的內容。例如:尤文圖斯 - 切沃2 - 0,特別是每個元素標籤。
這個正則表達式在網頁中運行良好,但在我之前發佈的鏈接中以前不起作用。錯誤在哪裏?

+0

您提供的鏈接包含HTML中的[JSON](http://en.wikipedia.org/wiki/JSON)。這樣''''就可以把它們放到JSON中了。所以首先要做的就是用[some]讀取JSON(http://www.ediy.co.nz/vbjson-json-parser) -library-in-vb6-xidc55680.html)[解析器](http://www.pozzware.com/pozzware/Corsi/Programmazione/VB.NET/JSON%20Library.aspx)for vb.net。然後我會建議你把HTML看作HTML而不使用正則表達式,這裏解釋[http://htmlparsing.com/regexes.html]。[This](http://www.codeplex.com/htmlagilitypack)是一個vb。 net html parser我可以找到 – funkwurm 2015-02-05 12:53:17

回答

0

對於手邊的任務來說,正則表達式是不合適的解決方案,因爲您正在處理HTML解析,並且HTML無法用正則表達式定義。例如,如果您在title之前class之前加入了一個元素,會發生什麼?如果某個元素在title =中有多餘的空格,或者有title='bla'而不是title="bla"

有一百萬次的變化將會破壞你的代碼,同時仍然滿足HTML規範。您正在引入對<a>標記中HTML屬性的確切順序和語法的不必要依賴。

改爲使用HTML或XML解析器。

+0

我知道這一點,但現在我只是調整正則表達式,我非常清楚xml是理想的, – 2015-02-05 12:50:26

+0

@AntonEgo您的實際輸入是什麼? – 2015-02-05 12:51:37

+0

我輸入的內容是您可以看到的內容從我給你的鏈接 我已經創建了一個算法,充當解析器並獲取該內容,我只需運行正則表達式,並請求你的幫助。 – 2015-02-05 13:11:13