這裏是我的問題:分組正則表達式
我有一個很長的字符串由不同的標籤界如此多的價值。這些值包括中文,英文措辭和數字。
我想通過指定模式分開。下面是一個例子: (我想找到的圖案XXXXXX其中xxxx是中國,英文,數字或任何符號,但不包括「<」或「>」作爲這兩個符號是識別代碼)
但是,我發現這些模式有些奇怪。該模式似乎並沒有recgonize前兩個標籤(),但第二個
String a = "<f\"number\">4 <f\"number\"><f$n0>14 <h85><f$n0>4 <f$n0>2 <f$n0>2 7 -<f\"Times-Roman\">7<f\"number\">";
Pattern p = Pattern.compile("<f\"number\">[\\P{sc=Han}*\\p{sc=Han}*[a-z]*[A-Z]*[0-9]*^<>]*<f\"number\">");
Matcher m = p.matcher(a);
while(m.find()){
System.out.println(m.group());
}
輸出是
如果您需要解析XML/HTML,你應該考慮使用XML解析器。正則表達式並沒有像處理這個那麼熱。 –
對不起,想念一些信息。 – DickDickSean
預期的結果應該是 – DickDickSean