2017-07-17 61 views
0

我使用的Weka的聚類方法將類似的字符串模式如何使用聚類方法將類似的字符串模式。我已經使用首先WEKA的fo​​nction「stringtowordVector」,然後我直接使用聚類一些methodes,但我不能得到正確的結果,可能有人給我一些正確的方法來組這類數據?這是我的數據的一小部分:Weka中,

@relation ponds 
@ATTRIBUTE LCC string 
@data 
acegiadfgiacehiacehiacfhjacehjadfhjacfgiadfhjadfhjadfhjacfhjadf 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhfhjacehj 
acehiadfhjacehiadfhjadfhjadfhjadfhjacfhjadfhjadfhjadfhjadfhjadfhjacehj 
acehiadfhjacehiadfhjadfhjacfhjaacehjadfhjadfhjadfhjacfhj 
acehiadfhjacehikkkkkkkkkkk 

其實這個數據的每一行代表一個提取頻繁模式(通過數據挖掘算法)和每個字母交流或電子郵件......代表一個屬性,但每模式(每一行)不具有相同的屬性,所以我怎麼能使用聚類方法將類似的模式?非常感謝你!!!期待您的回覆:)

大衛

+1

這也許可以用[隱馬爾可夫模型(https://en.wikipedia.org/wiki/Hidden_​​Markov_model)來表示,所以,如果你一定要使用Weka的,或許檢查出[HMMWeka(HTTP:/ /www.doc.gold.ac.uk/~mas02mg/software/hmmweka/index.html),但我從來沒有用它自己(對我來說很難得精通本) – knb

回答

0

每串都不同,所以「串詞矢量」將給予他們不同的載體。詳情請閱讀「文字袋型號」。

您可以嘗試使用Levenshtein距離進行聚類,但我寧願嘗試爲您的問題設計一些好的功能。