目前之間的相容性,我們使用在AWS EC2(單個實例)text2vec處理大數據集時,文本數據將在未來越來越大,我們可能會嘗試RHadoop(MapReduce的)架構和別t知道它是否可以兼容text2vec和RHadoop(MapReduce)。text2vec和RHadoop
0
A
回答
0
簡短的回答是肯定的 - 如果你真的想你可以做什麼用RHadoop工作。但我很確定這種努力會很大,並且可能對結果不滿意。
再回到現實的問題。值得嘗試text2vec版本0.5(上週發佈) - 它比以前消耗更少的內存。您也可以使用塊並行處理數據。例如,檢查this vignette。
另一件事是,像分類的基本任務,你通常不需要在RAM中的所有數據。您可以檢查我的另一個包 - FTRL,用SGD逐步遞增擬合邏輯迴歸(L1/L2 /彈性網罰)。
將是巨大的,有從您關於內存的問題在github報告(這實際上是從Matrix
包裝推出)。
PS樹方法和合唱團通常不會有稀疏高維數據良好。
+1
非常感謝。這些建議對我來說是非常寶貴的,也許我不會嘗試Rhadoop,我會嘗試另外幾種方式來說。 –
相關問題
- 1. Rhadoop的多核計算
- 2. RHadoop - Rstudio - 安裝arulesViz庫
- 3. text2vec:使用函數create_vocabulary
- 4. 流式命令失敗!在RHADOOP
- 5. 使用text2vec包進行文本預處理和主題建模
- 6. 將text2vec dtm寫入文件(csv或svmlight)
- 7. 從單詞向量到文檔向量[text2vec]
- 8. Text2Vec使用插入符號SVM警告消息進行分類
- 9. 如何從text2vec獲取主題概率表LDA
- 10. 用R中的text2vec來預測下一個單詞
- 11. 如何對齊text2vec中的兩個GloVe模型?
- 12. text2vec和topicmodels可以通過適合LDA的參數設置生成相似的主題嗎?
- 13. 帶插入符號的Text2Vec分類 - 樸素貝葉斯警告消息
- 14. 在R中的文本語料庫中繪製文檔修剪的效果text2vec
- 15. TM,Quanteda,text2vec。根據正則表達式模式獲取詞表左邊的字符串
- 16. LDA $新模式的構造text2vec [R包錯誤:錯誤.subset2(public_bind_env, 「初始化」)(...):未使用的參數(...)
- 17. 將R的Windows版本連接到Hadoop
- 18. H20:如何在文本數據上使用漸變提升?
- 19. 將r與Hadoop連接起來
- 20. 準備word2vec中的文字嵌入R包
- 21. PHP:OR和||和&&和
- 22. 如何在R中編寫map reduce?
- 23. Java和Android和SharedPreferences和OOP
- 24. 搜索和和&
- 25. lxml和CDATA和&
- 26. Spring和JSF和JPA
- 27. laravel OrderBy和總和
- 28. 分析儀 '&' 和 '和'
- 29. OR和和預期
- 30. Postpost和log4net和log4postsharp
問題完全不清楚。你用text2vec執行什麼樣的任務?你想用RHadoop實現什麼? –
我使用text2vec + xgboost進行文本分類,當它在1000萬行文本數據內時,模型可以很好地工作。否則,當它與EC2單實例(32G內存)一起運行時,內存會溢出。所以我想知道是否可以通過結合RHdoop解決。如果您有更好的建議,請讓我知道。非常感謝! –
內存溢出在哪個階段? 'create_dtm'? –