6
哪個開源軟件包最適合聚類大型語料庫文檔?它應該自己決定羣集的數量,還是可以接受它作爲參數。哪個集羣開源軟件包是最好的文檔?
我們擁有大量文檔,並不真正圍繞某個特定主題展開 - 它們是銷售和管理人員在組織中的各種項目和客戶中製作的文檔。我知道擁有這樣一個傳播語料庫會降低性能,但我們正在努力生活,以獲得最好的結果。現在,什麼是我們可以得到:-)
哪個開源軟件包最適合聚類大型語料庫文檔?它應該自己決定羣集的數量,還是可以接受它作爲參數。哪個集羣開源軟件包是最好的文檔?
我們擁有大量文檔,並不真正圍繞某個特定主題展開 - 它們是銷售和管理人員在組織中的各種項目和客戶中製作的文檔。我知道擁有這樣一個傳播語料庫會降低性能,但我們正在努力生活,以獲得最好的結果。現在,什麼是我們可以得到:-)
主題建模軟件,從專家在該領域的網頁列表最好的: http://www.cs.princeton.edu/~blei/topicmodeling.html
一個競爭領導小組(開源代碼):http://nlp.stanford.edu/software/tmt/tmt-0.3/
另一個開源Java項目: http://mallet.cs.umass.edu/topics.php
嗨,已經大大的東西在此期間改變了嗎?我發現這個很酷的工具:https://code.google.com/p/maui-indexer/ – Kiril