2016-07-15 97 views
1

我正在研究使用WordNet爲單個詞實施基於上下文的搜索的可能性。這個想法是這樣的:改善基於上下文的搜索

用戶搜索病毒,它應該返回搜索詞的上下文/應用程序,在我們的例子中是健康和計算。用戶現在選擇上下文,該上下文現在基於所選的上下文來檢索含義。我一直在檢查使用WordNet的可能性,但似乎WordNet不具備此功能。我也看到了詞義消歧,但其後的句子不是一個詞。我如何實現這一目標?有沒有任何字典能夠實現這一目標?任何想法在其他工作?

回答

0

我想出如何做到這一點,我得到了這個項目稱爲擴展共發現域(XWN)http://adimen.si.ehu.es/web/XWND。根據作者的說法,「是一項旨在自動改進WordNet域的正在進行的工作」,Wordnet域是另一個與XWN服務於相同目的但僅限於wordnet 2.0字典文件的項目。 XWN與Wordnet 3.0一起工作我已經測試過它,但我無法弄清楚爲單詞選擇適當的域的標準。另一個問題是在內存中加載偏移量需要很長時間。這是因爲每個領域的整體抵消約爲1900萬。另外XWN包含大約180個域名。每個域在它們中都有相同的詞,但是對於不同的權重。

例如,一個詞讓我們假設病毒在計算機科學中的權重爲0.00007899,生物學中爲0.08766,聲學中爲7.9866,法律中的權重爲4.97655。我還觀察到權重按升序排列,每個域中的前幾個單詞與該域密切相關。所以我設法使用它,但不太理想,因爲我沒有想到選擇域的標準,但選擇了所有的域,並僅檢索與搜索到的單詞相關的域的含義。

我希望這有助於某人,並且有人認爲我談論的標準。但是現在我提出了改進Wordnet域名http://wndomains.fbk.eu的方向,作者使用的是將某個詞與域名相匹配的方向。

1

消歧是一個很大的計算問題。如果你願意做一些相對簡單的事情,我會指你BabelNetBabelfy

第一個是龐大的百科詞典,第二個是由BabelNet團隊開發的消歧系統。

隨着BabelNet你有幾個有關像類別這個詞的元數據,它也有一個Java API。也許你可以從中解決問題。

另外,我建議您嘗試一些文本分析軟件,如MeaningCloud

+0

你似乎對此有相當多的瞭解。你能否詳細說明一下?我也在研究類似的問題,並希望知道更多。 – Ahmedov

+0

@Ahmedov你想知道什麼?你在做什麼? – antorqs

+0

我正在研究數據集的大型語料庫。基本上我的問題是找到「大海撈針」。這就是爲什麼我需要一個好的消歧算法,以及一些同義詞找到方法。 – Ahmedov