Q

聚類超過3個文檔時Kmeans進行異常緩慢

2011-12-13 100 views 0 likes

0

我試圖使用kmeans將相似的文檔聚類到彼此。聚類超過3個文檔時Kmeans進行異常緩慢

我正在使用NLTK的KMeans。

當我只集羣3個文件，它需要少於5秒。但是一旦我添加了第四個文檔，它就沒有完成（我在10分鐘後將其剪掉）。

當有4個文件時，矢量大小約爲1000.矢量也很稀疏，但我有8個RAM的演出，所以我並不擔心這一點。 1000應該不會那麼多。

任何人有任何想法，爲什麼它在5秒內解決3個文件，但不能解決4個文件...至少在放棄之前10分鐘？當我投入生產時，理論上一次只能集中300或400個文檔。

我在考慮嘗試一個不同的kmeans庫來查看NLTK實現是否很弱，但如果我是這個問題，我不想浪費我的努力。

謝謝大家。

2011-12-13 apexdodge

+0

你應該至少提供你的問題的代碼。 –

A

回答

0

我切換到Pycluster庫，它現在可以工作。

2011-12-15 15:35:23 apexdodge

相關問題