2014-10-11 115 views
0

我試圖從更長的文本中提取包含20個或更多字符的所有句子,但此刻我遠離解決方案(RegEx flavor - PCRE)正則表達式 - 匹配所有句子包含特定標籤之間的20個字符或更多

示例文本(我需要 '粗體' 的句子):

TylkoüNAS! Kurtkawiatrówkasportowa。 Posiadapodszewkę。 Przeznaczona do biegania。 Kup teraz!

我此刻正則表達式:

(^|\.\s)(.{20,}?[a-z])(\!|\.\s|\.$|$) 
+0

格式化您的問題.. – 2014-10-11 18:29:43

+0

我關閉這個問題不明確你的要求,因爲你要求我們解決了自然語言問題,這需要廣泛的研究,剔除特殊情況。 – nhahtdh 2014-10-11 19:27:09

+0

正則表達式無法處理語言! – sln 2014-10-11 19:31:03

回答

1
[^.!><]{20,} 

嘗試this.See演示。

http://regex101.com/r/vR4fY4/16

+0

工程相當不錯,但不完全是我要找的 - 在這句話中它不起作用http://rubular.com/r/Rb6KSXuY1Q 不是每個句點都是句子的結尾 – user3310085 2014-10-11 18:37:26

+0

@ user3310085那麼如何你定義了一個句子的結尾? – revo 2014-10-11 20:21:08

+0

類似這樣,但更復雜將是有用的: http://rubular.com/r/ukm0pWrrX6 組1匹配我的句子,但不拒絕短於20個字符的句子 – user3310085 2014-10-11 21:33:26

相關問題