有人可以解釋此RegEx行爲嗎？

使用RegEx時遇到一個奇怪的行爲。有人可以解釋此RegEx行爲嗎？

dataString = "#Name #Location New York #Rating" 
string[] rawValues = Regex.Split(dataString.Trim(), "(^|\\s)+#\\w+");

的模式匹配："#Name", " #Location", " #Rating"（這正是我打算匹配）。
分割回報：["", "", "", " ", "New York", " ", ""]

問題1：cunfusion已經從這裏開始。爲什麼在位置0,1,2有空串？兩場比賽和一場比賽，因爲它在比賽的第一個位置？

但是，這不是奇怪的一部分。

string[] rawValues = Regex.Split(dataString.Trim(), "(\\s|^)+#(\\w*[A-Za-z_]+\\w*)");

該模式匹配："#Name", " #Location", " #Rating"（和以前一樣）。
但分裂返回：["", "", "Name", "", " ", "Location"," New York", " ", "Rating",""]

問題2：這導致完全相同的匹配的圖案，結果在一個完全不同的分割輸出。這怎麼可能？？

來源

2012-11-27 rob

首先，一般建議：在C＃中使用逐字字符串正則表達式，以避免雙反斜線例如：'@ 「（\ s | ^）+＃（\ w * [A-Za-z _] + \ w *）」' –

thx，我不知道，我沒經常使用C＃ – rob

原因是從MSDN這樣的句子：

如果捕獲括號在一個Regex.Split表達所使用的，任何捕獲文本被包括在生成的字符串數組英寸

你不應該在Split中使用捕獲組，如果你真的只想在匹配時拆分字符串。你能避免捕獲組，在每個地方你(...)有使用(?:...)。

此外，爲你正確地估計。第一個和最後一個""的事實，串並開始用火柴（所以之前和之後，這些比賽將在拆分報空字符串）結束起源。

這裏是一個正則表達式，是更適合你的目的：

@"(?:^|\s+)#\w*[A-Za-z_]+\w*"

注意，具有+以外的第一個子模式也是不必要的，並導致尷尬的副作用。首先，它允許組捕捉到多次（這就是爲什麼你有兩個此外""，""：一個用於^，一個用於\s）。其次，沒有必要在第一個空格字符已經匹配後重復^，所以它足以只重複空格字符。另外，根本不需要在#之後對該單詞進行分組。

但是，如果你想要的是當它在字符串的開頭或前面有一個空格，以匹配類似#name（即不是*由**非空格字符前面），爲什麼包括可能在比賽中的所有空間。一個負面的後顧之門給你一個很好的出路：

@"(?<!\S)#\w*[A-Za-z_]+\w*"

這正是如上所述。 (?<!\S)匹配如果沒有非空格字符（如果沒有包含空格字符的話）。這涵蓋了兩種情況沒有改變，和你不需要Trim你的關鍵名稱。

來源

2012-11-27 17:52:11

哇，這個解釋了很多:)關於正則表達式模式本身，我將它改爲'@「（？：^ | \ s +）＃（？：\ w *）['。需要匹配＃在字符串的開頭或字符串中的白色字符後面的約束條件是：允許'[A-Za-z]，允許'_'（至少其中一個是強制的y），允許'\ d'。它似乎工作到目前爲止，但也許這可以實現更容易... – rob

@rob然後你需要什麼'分裂'？ –

@m好吧，它的用戶輸入形式是#key1值vablue值#key2更多值#name_of_key等等，我需要首先匹配鍵值，然後獲得相應的值:) – rob

因爲您正在拆分的正則表達式匹配1個或多個空格，後跟散列（'＃'），後跟1個或多個單詞字符。

任何匹配的內容都不包含在結果中。

有兩種方法可以做到這一點：

拆分對什麼是不想和篩選結果。
積極尋找想要的東西。

下面是一些代碼與上述兩個選項：

static void Main(string[] args) 
{ 
    string sourceText = "#Name #Location New York #Rating" ; 

    // option 1: split on whitespace and then toss whatever isn't wanted 
    string[] hashTokens1 = sourceText.Split().Where(x => x.StartsWith("#")).ToArray() ; 

    // option 2: actively search for what is desired 
    string[] hashTokens2 = ParseSourceData(sourceText).ToArray() ; 

    return ; 

} 

private static readonly Regex hashTokenPattern = new Regex(@"#\w+"); 
private static IEnumerable<string> ParseSourceData(string s) 
{ 
    for (Match m = hashTokenPattern.Match(s) ; m.Success ; m = m.NextMatch()) 
    { 
     yield return m.Value ; 
    } 
}

我自己，我會使用第二個選項，因爲它更好的狀態的情況下你要完成的任務。一個好的一般規則是喜歡肯定的斷言或測試而不是消極的。

你也可以寫第二個選項是「一行程序，即：

// option 2: actively search for what is desired 
Regex hashTokenPattern = new Regex(@"#\w+"); 
string[] hashTokens2 = hashTokenPattern.Matches(sourceText).Cast<Match>().Select(x=>x.Value).ToArray();

來源

2012-11-27 18:03:14

有人可以解釋此RegEx行爲嗎？

回答

相關問題