2017-08-13 46 views
0

目前之間的相容性,我們使用在AWS EC2(單個實例)text2vec處理大數據集時,文本數據將在未來越來越大,我們可能會嘗試RHadoop(MapReduce的)架構和別t知道它是否可以兼容text2vec和RHadoop(MapReduce)。text2vec和RHadoop

+0

問題完全不清楚。你用text2vec執行什麼樣的任務?你想用RHadoop實現什麼? –

+0

我使用text2vec + xgboost進行文本分類,當它在1000萬行文本數據內時,模型可以很好地工作。否則,當它與EC2單實例(32G內存)一起運行時,內存會溢出。所以我想知道是否可以通過結合RHdoop解決。如果您有更好的建議,請讓我知道。非常感謝! –

+0

內存溢出在哪個階段? 'create_dtm'? –

回答

0

簡短的回答是肯定的 - 如果你真的想你可以做什麼用RHadoop工作。但我很確定這種努力會很大,並且可能對結果不滿意。

再回到現實的問題。值得嘗試text2vec版本0.5(上週發佈) - 它比以前消耗更少的內存。您也可以使用塊並行處理數據。例如,檢查this vignette

另一件事是,像分類的基本任務,你通常不需要在RAM中的所有數據。您可以檢查我的另一個包 - FTRL,用SGD逐步遞增擬合邏輯迴歸(L1/L2 /彈性網罰)。

將是巨大的,有從您關於內存的問題在github報告(這實際上是從Matrix包裝推出)。

PS樹方法和合唱團通常不會有稀疏高維數據良好。

+1

非常感謝。這些建議對我來說是非常寶貴的,也許我不會嘗試Rhadoop,我會嘗試另外幾種方式來說。 –