2011-10-13 74 views
6

哪個開源軟件包最適合聚類大型語料庫文檔?它應該自己決定羣集的數量,還是可以接受它作爲參數。哪個集羣開源軟件包是最好的文檔?

我們擁有大量文檔,並不真正圍繞某個特定主題展開 - 它們是銷售和管理人員在組織中的各種項目和客戶中製作的文檔。我知道擁有這樣一個傳播語料庫會降低性能,但我們正在努力生活,以獲得最好的結果。現在,什麼是我們可以得到:-)

回答