2011-03-02 56 views
6

我一直在使用木槌推斷包含100,000行(大約34 MB木槌格式)的文本文件的主題。但是現在我需要在包含一百萬行(大約180MB)的文件上運行它,並且得到一個java.lang.outofmemory異常。有沒有辦法將文件分割成更小的文件,併爲所有文件中的數據組合起來構建模型? 由於事先木槌主題建模

回答

1

我不知道馬利特的可擴展性,大數據,但項目http://dragon.ischool.drexel.edu/可以存儲在磁盤備份持續它的數據,因此可以擴展到無限的語料規模(當然是低性能)

+1

它看起來像龍Toolkit是死的,但。自2007年以來沒有任何活動。此外,尚不清楚它使用的是什麼許可證(商業發展是否允許?) – chaostheory 2011-05-18 14:00:38

1

即使從多個文件中讀取模型,該模型仍然會非常龐大​​。你有沒有嘗試增加你的Java虛擬機的堆大小?

0

鑑於當前PC的內存大小,應該很容易使用大到2GB的堆。 在考慮使用羣集之前,您應該嘗試單機解決方案。

1

java.lang.outofmemory異常發生的主要原因是堆空間不足。 您可以使用-Xms和-Xmx來設置堆空間,以便它不會再次出現。

6

斌此行/ mallet.bat增加值:

set MALLET_MEMORY=1G