如何獲得標籤元素的標題類正則表達式

我試圖製作一個正則表達式來抓取互聯網標籤元素的標題。特別是在這link 如何獲得標籤元素的標題類正則表達式

你如何看到有一些團隊的表「Classifica」，我會抓住「Ultime 5 partite」形式，如果用戶在彩色框上重疊鼠標出現特定團隊結果天。我會抓這個標題班;所以我意識到這樣的正則表達式：

我做一個正則表達式是這樣的：.giornata_1_casa = Val(Regex.Match(Content, "<a href=""(.*)"" class=""(.*)"" title=""(.*)"">[D|W|L]</a>").Groups(1).ToString)

但回到我的0，我想抓住的內容。例如：尤文圖斯 - 切沃2 - 0，特別是每個元素標籤。
這個正則表達式在網頁中運行良好，但在我之前發佈的鏈接中以前不起作用。錯誤在哪裏？

來源

2015-02-05 Anton Ego

您提供的鏈接包含HTML中的[JSON]（http://en.wikipedia.org/wiki/JSON）。這樣''''就可以把它們放到JSON中了。所以首先要做的就是用[some]讀取JSON（http://www.ediy.co.nz/vbjson-json-parser） -library-in-vb6-xidc55680.html）[解析器]（http://www.pozzware.com/pozzware/Corsi/Programmazione/VB.NET/JSON%20Library.aspx）for vb.net。然後我會建議你把HTML看作HTML而不使用正則表達式，這裏解釋[http://htmlparsing.com/regexes.html]。[This]（http://www.codeplex.com/htmlagilitypack）是一個vb。 net html parser我可以找到 – funkwurm 2015-02-05 12:53:17

對於手邊的任務來說，正則表達式是不合適的解決方案，因爲您正在處理HTML解析，並且HTML無法用正則表達式定義。例如，如果您在title之前class之前加入了一個元素，會發生什麼？如果某個元素在title =中有多餘的空格，或者有title='bla'而不是title="bla"？

有一百萬次的變化將會破壞你的代碼，同時仍然滿足HTML規範。您正在引入對<a>標記中HTML屬性的確切順序和語法的不必要依賴。

改爲使用HTML或XML解析器。

來源

2015-02-05 12:48:41

我知道這一點，但現在我只是調整正則表達式，我非常清楚xml是理想的， – 2015-02-05 12:50:26

@AntonEgo您的實際輸入是什麼？ – 2015-02-05 12:51:37

我輸入的內容是您可以看到的內容從我給你的鏈接我已經創建了一個算法，充當解析器並獲取該內容，我只需運行正則表達式，並請求你的幫助。 – 2015-02-05 13:11:13

如何獲得標籤元素的標題類正則表達式

回答

相關問題