2014-11-03 74 views
2

如何使用NLP /信息提取(IE)方法檢測/找出縮寫詞的含義(擴展名)?如何自動檢測首字母縮寫詞的含義/擴展名

我們希望在自由文本中檢測是否使用了單詞或其首字母縮寫詞,並將其映射到相同的實體/令牌。

網上提供的大多數論文都是關於醫學縮略語的,他們沒有提供用於完成此任務的圖書館。

任何想法?

+2

首字母縮略詞幾乎總是依賴於域。這就是爲什麼擁有「一般」圖書館不是一個好主意。例如,NLP可能意味着「自然語言處理」或「神經語言程序設計」,這取決於域。 – 2014-11-03 18:11:47

+0

你的問題不清楚。你的意思是,只要一個字,你想找到它的縮寫? – Daniel 2014-11-04 07:04:59

+0

@Daniel是的,我的意思是一個映射,它將縮寫映射到擴展 – 2014-11-04 13:06:41

回答

4

讀你的問題和意見我知道你想創建一個從縮寫到其擴展名的映射。

假設您有一組文本文檔,其首字母縮寫及其擴展名都可以應用算法來提取(首字母縮寫,擴展名)對。

A Simple Algorithm for Identifying Abbreviation Definitions in Biomedical Text by A.S Schwartz and M.A. Hearst,通過查看圖案來完成這一工作。 Java實現可用here

我將此算法應用於英文維基百科,您可以看到結果here。我也將它應用於一系列葡萄牙文新文章,結果是here

+1

還有一個Python實現:http://www.cnts.ua.ac.be/~vincent/scripts/abbreviations.py – 2017-05-10 12:59:51

+0

不錯!感謝分享 – 2017-05-10 15:31:21

相關問題