檢測字符串中的特定標記。 C＃

我有一個非常大的字符串（HTML），並在此HTML有特別的標記，其中所有的人都開始用「＃」，並以「＃」檢測字符串中的特定標記。 C＃

簡單如

<html> 
<body> 
     <p>Hi #Name#, You should come and see this #PLACE# - From #SenderName#</p> 
</body> 
</html>

我需要結束將檢測這些令牌並將其放入列表中的代碼。 0 - ＃名＃ 1 - ＃＃地點2 - ＃發送者姓名＃

我知道，我也許可以使用正則表達式，反正你有一些想法，這樣做呢？

來源

2010-11-25 David Bonnici

是你可以使用正則表達式。

string test = "Hi #Name#, You should come and see this #PLACE# - From #SenderName#"; 
Regex reg = new Regex(@"#\w+#"); 
foreach (Match match in reg.Matches(test)) 
{ 
    Console.WriteLine(match.Value); 
}

正如您可能已經猜到\ w表示任何字母數字字符。 +表示它可能出現1次或更多次。你可以在這裏找到更多的信息msdn doc（對於.Net 4.你也會發現其他的版本）。

來源

2010-11-25 13:41:18

用途：

MatchCollection matches = Regex.Matches(mytext, @"#(\w+)#"); 

foreach(Match m in matches) 
{ 
    Console.WriteLine(m.Groups[1].Value); 
}

來源

2010-11-25 13:32:47 Aliostad

如果將正則表達式更改爲@「＃（。*）＃」 – T33C 2010-11-25 13:51:40

foreach (Match m in Regex.Matches(input, @"#\w+#")) 
    Console.WriteLine("'{0}' found at index {1}.", m.Value, m.Index);

來源

2010-11-25 13:33:12 VladV

該如何解析＃您好＃姓名＃其中＃正確放置＃更多文本。只要它是一個單詞，它是否不會將「哈希」之外的單詞解析爲「外部」？還是我在這裏弄錯了？ – 2010-11-25 13:36:36

剛剛驗證 - 在你的例子中它給出了「＃姓名＃」和「＃地點＃」。當考慮多個匹配時，它們中的每一個都在前一個匹配結束後開始 - 也就是說，在匹配「＃Name＃」之後，它開始尋找第二個哈希符號後的下一個匹配項。 – VladV 2010-11-25 13:50:49

+1：這很完美。我明白了爲什麼現在，因爲＃實際上被第一場比賽「使用」了，因此也不能被第二場比賽使用。感謝您的啓發。 – 2010-11-25 14:28:53

你可以試試：

// using System.Text.RegularExpressions; 
// pattern = any number of arbitrary characters between #. 
var pattern = @"#(.*?)#"; 
var matches = Regex.Matches(htmlString, pattern); 

foreach (Match m in matches) { 
    Console.WriteLine(m.Groups[1]); 
}

搶答this SO問題的啓發。

來源

2010-11-25 13:33:27

+1是 - 考慮使用非貪婪。*匹配;雖然應該是。+？ – 2010-11-25 13:37:32

這會不會解析像這樣的文本：`你好＃姓名＃其中＃地點＃更多文本`，或者我誤解了有關RegEx如何工作的內容。這對OP來說可能不是一個有效的問題，所以這只是爲了我自己的好奇:) – 2010-11-25 13:46:13

沒有Regex一個變種，如果你喜歡：

var splitstring = myHtmlString.Split('#'); 
var tokens = new List<string>(); 
for(int i = 1; i < splitstring.Length; i+=2){ 
    tokens.Add(splitstring[i]); 
}

來源

2010-11-25 13:35:07

使用Regex.Matches法的東西格式，如：

#[^#]+#的模式。

這可能是最天真的方式。

這可能再需要進行調整，如果你想避免包括在輸出匹配的「＃」字符，可能與環視：

(?<=#)[^#]+(?=#)

（這樣做的一個匹配值是'你好」不是‘＃＃你好’ - 所以你不必做任何更多的微調）

來源

2010-11-25 13:36:41

這使您可以標記列表的要求：

var tokens = new List<string>(); 
var matches = new Regex("(#.*?#)").Matches(html); 

foreach (Match m in matches) 
    tokens.Add(m.Groups[1].Value);

編輯：如果你不要想包括英鎊字符，只需將它們移動到正則表達式字符串中的括號外（請參閱Pablo的答案）。

來源

2010-11-25 13:37:02

天真的解決方案：

var result = Regex 
    .Matches(html, @"\#([^\#.]*)\#") 
    .OfType<Match>() 
    .Select(x => x.Groups[1].Value) 
    .ToList();

來源

2010-11-25 13:37:22

試試這個

var result = html.Split('#') 
        .Select((s, i) => new {s, i}) 
        .Where(p => p.i%2 == 1) 
        .Select(t => t.s);

說明：

一號線 - 我們分裂的字符 '＃'

2號線的文本 - 我們選擇新的匿名類型，其中包括數組中的字符串位置以及字符串本身

line3 - 我們將匿名對象的列表篩選爲那些具有奇數索引值的列表 - 有效地選擇「其他」字符串 - 這適合於查找包含在哈希字符中的那些字符串，而不是那些位於

之外的字符串

4號線=我們剝去索引，並從匿名類型只返回字符串

來源

2010-11-25 13:39:03

Linq的解決方案：

 string s = @"<p>Hi #Name#, 
      You should come and see this #PLACE# - From #SenderName#</p>"; 

     var result = s.Split('#').Where((x, y) => y % 2 != 0).Select(x => x);

來源

2010-11-25 13:41:09 nan

檢測字符串中的特定標記。 C＃

回答

相關問題