0

我正在尋找一種方法在文本中查找某些特定的模式。例如,如果我想找到一個文本格式,這樣所有引用:在文本中查找字符串的特定模式

  • 男爵,納奧米(2000)字母來電子郵件:如何寫英文演進以及它的航向,勞特利奇:倫敦和紐約。

所以任何類似的東西都會從輸入文本中返回。有沒有什麼算法對此很好。目前爲止我發現的所有算法都是在文本中搜索相似的字符串。

我在考慮使用正則表達式,但我不知道這是否是最好的方法,因爲我需要一些能夠計算相似度索引的東西,然後返回具有最佳分數的匹配。

+0

什麼語言?聽起來像你需要像[獅身人面像](http://sphinxsearch.com/) –

+1

描述你在尋找什麼更好 - 嘗試描述[grammer](http://en.wikipedia.org/wiki/Formal_grammar)隨着更多的例子。一旦你這樣做了 - 這將是明確的正則表達式是否足夠,或者你可能需要一個[context-free](http://en.wikipedia.org/wiki/Context-free_language)解析器(以及:[LR? SLR?](http://en.wikipedia.org/wiki/LR_parser)也許[LL](http://en.wikipedia.org/wiki/LR_parser)?) – amit

+0

解析這些字符串是計算相似性是兩個不同的任務。 –

回答