2016-02-05 107 views
-3

我有epinions網站的數據集,想實現推薦系統 在第一步我應該改變數據集的結構,它應該像120000*780000 rows and columns 它真的很大的矩陣和由於內存不足,不可能做到這一點 在我的工作中,每個用戶都應該有M維矢量,並且M780000 的項目總數我不能使用稀疏矩陣,因爲我需要索引,而且它太慢 我現在可以做什麼?我如何在matlab中擁有這個大數據集?在Matlab中處理非常大的矩陣

+1

我不認爲使用稀疏本身應該* * *慢。你確定你的矩陣實際上是*稀疏*?你是否預先分配? –

回答

0

你可以嘗試不同的東西,以減少數據量:

  1. 把你的意見的隨機子集:120.000意見相當多,儘量隨機在幾個較小的子集分裂,並檢查這是系統的性能。
  2. 使用PCA降低數據的維度:780.000維度是一個很大的。用PCA可能會大大減少維數。
  3. 如果您的數據大多爲零或不變,您實際上可以使用稀疏矩陣。稀疏矩陣記錄非零數據的索引,所以不用擔心。