2012-04-08 84 views
0

我正在做一個使用向量空間模型的搜索引擎項目,爲此我需要創建一個術語文檔矩陣,然後在其上應用SVD。在java中爲LSI實現創建術語文檔矩陣

我應該把這個詞作爲行和文檔作爲列嗎?

我做它在Java所以它應該是這樣的:

計數[keywordList.size()] [listOfFilesinCorpus.length]

還是應該是相反的?我需要將這個二維數組傳遞給apache commons數學的:

RealMatrix A = Array2DRowRealMatrix(TDM);

其中TDM是術語文檔矩陣。

我需要條件作爲尺寸,然後我會比較向量空間中的文檔。請幫助,謝謝。

回答

2

它並不重要,你可以隨時在兩個換位之間切換!

但通常,行是條款和列是文件

+0

哈哈這是一個答覆後近一年:D。真棒我會接受它無論如何 – 2013-01-29 14:48:24

+0

非常感謝;) – bendaizer 2013-01-29 15:22:38