2011-12-13 100 views
0

我試圖使用kmeans將相似的文檔聚類到彼此。聚類超過3個文檔時Kmeans進行異常緩慢

我正在使用NLTK的KMeans。

當我只集羣3個文件,它需要少於5秒。但是一旦我添加了第四個文檔,它就沒有完成(我在10分鐘後將其剪掉)。

當有4個文件時,矢量大小約爲1000.矢量也很稀疏,但我有8個RAM的演出,所以我並不擔心這一點。 1000應該不會那麼多。

任何人有任何想法,爲什麼它在5秒內解決3個文件,但不能解決4個文件...至少在放棄之前10分鐘?當我投入生產時,理論上一次只能集中300或400個文檔。

我在考慮嘗試一個不同的kmeans庫來查看NLTK實現是否很弱,但如果我是這個問題,我不想浪費我的努力。

謝謝大家。

+0

你應該至少提供你的問題的代碼。 –

回答

0

我切換到Pycluster庫,它現在可以工作。