2017-04-10 69 views
-1

我有一個excel工作表2列:編碼獨特的功能

  1. 詞2.語言

只有一個在各行字和它直接連接到語言

如何將這些單詞和語言格式化爲機器學習可接受的數據?

我正在使用scikit-learn並且想到了一大堆單詞,但在我看來,每個單詞的索引都不能傳達每個單詞的特徵。

+0

什麼是您的分類任務?你想成爲受過培訓的系統的輸入和輸出是什麼? – Hossein

+0

@Hossein任務是將給定的單詞分類爲英語或荷蘭語。 –

回答

2

從你的問題,我想你是問如何從單詞中提取特徵來訓練一個分類器來確定單詞的語言。我認爲單詞的長度和這兩個字符中的字符bigrams是很好的功能。看看this post提取字符兩字。另外,也許適合使用NLTK分類器。例如,

from nltk.classify import NaiveBayesClassifier 
nb = NaiveBayesClassifier.train(train_set) 

其中train_set的形式應爲[(features, label)],其中features是形式{feature_name: feature_value}dict的元組列表。

+0

這工作,謝謝! 你也知道如何在scikit-learn中實現這個嗎? 或者這些類型的分類問題是否只能由nltk完成? –

+0

@JesseVermeulen你也可以使用scikit-learn。看看[這個鏈接](http://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.MultinomialNB.html#sklearn.naive_bayes.MultinomialNB)。 – Hossein

+0

感謝您的幫助! –