2011-01-12 97 views
1

目標:我需要能夠將撇號轉換爲正確形成的單詞。 - 至少對於帶撇號的最常見單詞。理想情況下,我想要一個單詞列表及其隱含的關鍵詞(即「不」和「不」)。撇號轉換爲正確的文本?

問題:我創建一個搜索算法基於自然語言處理,但是當用戶創建使用單引號的內容(或搜索),它會導致問題我們。這主要是因爲,如果我們簡單地刪除撇號,我們將有(不 - >不要)(不 - >犯規),從而正式並不是一個英文單詞,而不能由NLP系統進行翻譯。

理想的解決方法是什麼,這些項目應轉換成一對一的映射,但是我不知道這樣的列表中。

請讓我知道,如果你知道一個,並在那裏我也許能找到它。

THX

+0

出於好奇,爲什麼不加上收縮到您的NLP系統的字典? – 2011-01-12 22:43:02

回答

3

這看起來是一個不錯的列表: http://www.textfixer.com/resources/english-contractions-list.php

取決於你想怎麼好讓你的系統。它會明白,「將要」是「將要」,「得到」是......好吧,這是一個艱難的。這可能意味着「必須」(「必須」,「必須」)或「得到」(「有」)。

哦,當我們試圖教我們的計算機進行通信,我們學習的東西。