2012-02-26 93 views
1

我正在測試一個想法,使用回聲狀態網絡的分層組合向量化任何符號的安全性到R^n中的固定大小的向量。目標是將這些序列分類爲矢量(有許多機器學習算法可用於固定大小的實矢量)。向量化單詞以使用機器學習算法

特別是,我用英文單詞測試這個算法,試圖將它們分類爲名詞或形容詞。我的數據集在這裏:http://www.ashley-bovan.co.uk/words/partsofspeech.html

使用支持向量機進行分類,我得到了9%的錯誤,有人請指向我相關論文或結果進行比較?

謝謝!

+0

不錯的例子 - 但90%似乎是一個普遍的常數。你能發佈一些錯誤分類的單詞嗎?什麼是n,你如何規範化n-矢量? – denis 2012-02-27 17:59:46

回答

0

幾年前,我研究了使用馬爾可夫鏈將字符串分類爲正確的俄語單詞或一些隨機字符串(不使用任何字典)的算法。這裏是鏈接到翻譯的文章:

http://www.begellhouse.com/journals/2b6239406278e43e,685626ff507e6e58,5232ec7f32b362ef.html

我得到的結果91%左右(非常類似於你得到了你的問題,我覺得這很迷人)。在我的研究過程中,我遇到了另一項研究,作者試圖將一個短語(至少包含三個詞的字符串)分類爲英語,法語或德語。他們的成功率稍低(〜80%)。我無法找到他們在互聯網上的工作鏈接,但它被稱爲像 - 穆雷「概率語言建模」

+0

如果您還記得我可以在哪裏找到一些要測試的數據集,那麼比較它會很有趣。謝謝! – user1234299 2012-02-27 13:16:17

0

你是如何使用SVM分類?哪個公式 - c-svm,nu-svm等? SVM對其參數非常敏感。你在使用哪個內核?你使用的是什麼內核參數? C/nu的價值?

正確的參數將根據數據集而不同,通常部分數據用於查找內核&參數的最佳組合。錯誤的組合可以很容易地將您的結果顯着關閉。也許你已經做到了這一點,但是從你說的話並不清楚,並且可以產生重大影響。

+0

我正在使用c-svm(在基於libsvm的mdp中的python中)。內核是線性的,但我沒有真正調整libsvm給出的參數,我只是使用默認值(根據libsvm文檔,c = 1),因爲我想做快速測試並知道它離多遠最先進的。 – user1234299 2012-02-27 13:06:16

+0

不幸的是SVM不是一個好的'快速測試'分類器 - 爲了獲得好的結果,你需要調整參數。我建議閱讀[許志偉]支持向量分類實用指南(http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf),Chih-Chung Chang和林志仁。它會繼續如何確保您的數據正確縮放,並且您已經很好地調整了參數。如果你在沒有調整的情況下準確度達到91%,那麼你可能會做得更好。 – karenu 2012-02-27 20:14:11

+0

在確定最新技術水平方面 - 我的研究不在這方面,所以我不知道是非正式的,而是一個快速[Google學者搜索](http://scholar.google.com/scholar?hl=en&q =%22parts + of + speech%22 + tag&btnG = Search&as_sdt = 0%2C22&as_ylo =&as_vis = 0)揭示了這篇論文:[基於變換的錯誤驅動 學習和自然語言處理: 詞類分析標籤](http://acl.ldc.upenn.edu/J/J95/J95-4004.pdf),超過1500條引用。他們聲稱99%的準確性,但我只是剔除它。從那裏開始,看看引用這篇論文的論文來尋找更近期的工作。 – karenu 2012-02-27 20:19:35