2017-06-14 74 views
0

我打算使用Scikit Learn的Multi Layer Perceptron Classifier來達到此目的。
輸出是該單詞的性別,該單詞將以單熱編碼表示,如男性爲[1,0,0],女性爲[0,1,0],女性爲[0,0,1]。 現在其中一個輸入是單詞的單詞向量。這些向量中的每一個都有20個維度。 其他功能是它的語音標籤和奇點(0)/多(1)狀態的一部分。 我的問題是如何使用MLPClassifier中的一個數組作爲一個數組的單詞向量?如何使用word2vec返回的單詞向量作爲功能?

+0

你有兩個女性班? –

回答

1

您的w2v矢量捕捉到與該單詞相關的一些語義相似性。這個矢量必須被認爲是一個整體 - 它本身就是一個特徵。

神經網絡的一個很好的屬性是它們自己提取和學習模式的能力。作爲輸入,你可以考慮用POS標籤的矢量化/數值相當於沿着串聯詞彙向量,最後的奇點狀態:

------------------- ---- - 
\_________________/ \__/ |  } ------ 25d vector input to the MLP (assuming your POS takes 4 spaces) 
    w2v vector  POS state 

只要你遵循的培訓,測試一致的方案,並看不見的數據,您的MLP將使用整個輸入在學習時自動從輸入中提取特徵。

+0

再次感謝!順便說一下,GloVe軟件包不支持印地語! – Djokester

+0

@Djokester哦!我很遺憾聽到這個消息。 :(希望w2v對你有好處,祝你好運! –

相關問題