2017-05-08 54 views
1

我正在使用MALLET進行文本分類(使用樸素貝葉斯),我知道有這種FeatureSequence2FeatureVector()方法用於創建可用作管道一部分的特徵向量。我的問題是當我們使用沒有參數的FeatureSequence2FeatureVector()和FeatureSequence2FeatureVector(boolean x)時,實現了哪個權重模式。對於第二個,我猜想x = TRUE應該導致伯努利樸素貝葉斯。但是沒有參數和x = FALSE版本呢?MALLET - 哪個權重模式?

回答

1

默認情況下,FeatureSequence2FeatureVector會將要素值設置爲原始要素計數。例如,字符串「狗貓狗」將映射到

{ "dog": 2.0, "cat": 1.0 } 

傳遞true作爲參數,將導致

{ "dog" 1.0, "cat": 1.0 } 
+0

感謝。然後,我認爲可以說FeatureSequence2FeatureVector()和FeatureSequence2FeatureVector(false)都實現多項式,而FeatureSequence2FeatureVector(true)將在這種特殊情況下實現伯努利樸素貝葉斯。對? –