2012-08-17 90 views
4

我正在嘗試使用不同的NLP功能來進行一些KNN學習。例如,我想使用bag-of-words和本地POS標籤。如何結合機器學習的不同NLP功能?

另外,我有一個如何與一個要素計算類似一些瞭解。就像使用餘弦相似度與計數一樣(對於bag-of-words矢量),或者使用漢明距離來標記POS標籤。

不過,我不知道如何將兩者結合起來。這方面的人們通常如何做到這一點? 任何人都可以幫助我嗎?

在此先感謝。

回答

2

我會同時使用這兩種功能的簡單線性組合。因此,您分別使用餘弦相似性和POS標籤的漢明距離比較袋單詞向量,然後取兩個結果的平均值。所以,如果餘弦比較和漢明距離導致以下等級:

rank score cosine Hamming 
------------------------------- 
1    red  blue 
2    blue  yellow 
3    yellow orange 
4    orange red 

然後最終排名(給出的排名分數上面,你可以,如果你想更多地強調過程的改變,例如,指數標在較高等級的標籤),將作爲(以較低的分數越好)如下:

label total score 
-------------------- 
blue  3 
red  5 
yellow 5 
orange 7 

所以輸出標籤將blue。在這種情況下,線性組合對餘弦相似度輸出賦予50%的權重,對漢明距離輸出賦予50%的權重。您可以使用不同的權重(例如70%的餘弦,30%的漢明)進行測試以找到兩種測量之間的最佳平衡。