text2vec和RHadoop

目前之間的相容性，我們使用在AWS EC2（單個實例）text2vec處理大數據集時，文本數據將在未來越來越大，我們可能會嘗試RHadoop（MapReduce的）架構和別t知道它是否可以兼容text2vec和RHadoop（MapReduce）。text2vec和RHadoop

2017-08-13 Zheng Lu

問題完全不清楚。你用text2vec執行什麼樣的任務？你想用RHadoop實現什麼？ –

我使用text2vec + xgboost進行文本分類，當它在1000萬行文本數據內時，模型可以很好地工作。否則，當它與EC2單實例（32G內存）一起運行時，內存會溢出。所以我想知道是否可以通過結合RHdoop解決。如果您有更好的建議，請讓我知道。非常感謝！ –

內存溢出在哪個階段？ 'create_dtm'？ –

簡短的回答是肯定的 - 如果你真的想你可以做什麼用RHadoop工作。但我很確定這種努力會很大，並且可能對結果不滿意。

再回到現實的問題。值得嘗試text2vec版本0.5（上週發佈） - 它比以前消耗更少的內存。您也可以使用塊並行處理數據。例如，檢查this vignette。

另一件事是，像分類的基本任務，你通常不需要在RAM中的所有數據。您可以檢查我的另一個包 - FTRL，用SGD逐步遞增擬合邏輯迴歸（L1/L2 /彈性網罰）。

將是巨大的，有從您關於內存的問題在github報告（這實際上是從Matrix包裝推出）。

PS樹方法和合唱團通常不會有稀疏高維數據良好。

2017-08-15 09:05:10

非常感謝。這些建議對我來說是非常寶貴的，也許我不會嘗試Rhadoop，我會嘗試另外幾種方式來說。 –

回答