2016-11-29 76 views
1

我想在法文文件中匹配地名。我試圖使用MARKFAST,但我面臨的重音敏感問題。假設我的places.txt文件包含「Uzès」。我RUTA規則如下:以重音不敏感的方式匹配單詞表是否可能?

PACKAGE my.example; 
DECLARE PlaceName; 
WORDLIST PlaceNamesList = "places.txt"; 

Document{ -> MARKFAST(PlaceName, PlaceNamesList, true)}; 

規則正確匹配澤斯文本,澤斯甚至澤斯但不澤斯也不澤斯,這是形式我希望找到在我的文本。

實現此目標的正確解決方案是什麼?我是否必須生成所有地名的不重複版本? (這並不能完全解決我的問題,我還希望文本中的重音有所變化,例如在Uzés)。其他RUTA資源(單詞表,MTWL)在口音上的表現有何不同?

回答

0

不幸的是,UIMA Ruta(目前2.5.0)不支持不區分重音的匹配。

您或者需要(以編程方式)展開您的單詞列表或使用其他註釋器。

免責聲明:我UIMA魯塔

+1

由於開發商。恐怕目前沒有對口音不敏感的字典註釋器。我將構建一個並將其打包爲UimaFit組件,以便能夠將其作爲Ruta「預處理」加以包含。 –