1
我想在法文文件中匹配地名。我試圖使用MARKFAST,但我面臨的重音敏感問題。假設我的places.txt
文件包含「Uzès
」。我RUTA規則如下:以重音不敏感的方式匹配單詞表是否可能?
PACKAGE my.example;
DECLARE PlaceName;
WORDLIST PlaceNamesList = "places.txt";
Document{ -> MARKFAST(PlaceName, PlaceNamesList, true)};
規則正確匹配澤斯文本,澤斯甚至澤斯但不澤斯也不澤斯,這是形式我希望找到在我的文本。
實現此目標的正確解決方案是什麼?我是否必須生成所有地名的不重複版本? (這並不能完全解決我的問題,我還希望文本中的重音有所變化,例如在Uzés)。其他RUTA資源(單詞表,MTWL)在口音上的表現有何不同?
由於開發商。恐怕目前沒有對口音不敏感的字典註釋器。我將構建一個並將其打包爲UimaFit組件,以便能夠將其作爲Ruta「預處理」加以包含。 –