2016-11-27 94 views
0

我今天遇到了text2vec軟件包,這正是我需要解決特定問題的原因。但是,我一直無法弄清楚如何將使用text2vec創建的dtm導出到某種輸出文件。我的最終目標是使用text2vec在R中生成特徵,並將生成的矩陣導入到H2O中進行進一步建模。 H2O可以讀取CSV或SVMLight格式。將text2vec dtm寫入文件(csv或svmlight)

我創建的第一個是987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries,所以它很大。使用as.matrix()不可能將它寫出到CSV,因爲它太大了。我認爲我可以很容易地將它寫成SVMLight格式,但一直未能找到可用的庫。任何人有任何其他的選擇,讓這個輸出到一個文件,我可以讀入H2O?

回答

1

有幾個軟件包可以做到這一點。看看https://github.com/Laurae2/sparsity - imho最有希望:

library(text2vec) 
library(sparsity) 
data("movie_review") 
N = 5000 
tokens = movie_review$review[1:N] %>% tolower %>% word_tokenizer 
it = itoken(tokens, progressbar = T) 
dtm = create_dtm(it, hash_vectorizer()) 
write.svmlight(dtm, labelVector = movie_review$sentiment, file = "dtm.svmlight") 
+0

謝謝。我偶然發現了其中的一些(包括這個),但都沒有工作。他們都會拋出某種錯誤或其他。 –

+0

相關提示我會試圖弄清楚是什麼問題。 –

+1

@ dave-kincaid一切正常 - 看例子更新的答案。我發現你報告的問題:https://github.com/felixr/sparsity/issues/1。問題是'labelVector'應該是數字目標變量。 –