bigdata

    40熱度

    2回答

    我一直是R的很長一段時間的用戶,並且最近開始使用Python。使用傳統的RDBMS系統進行數據倉庫,使用R/Python進行數字處理,我覺得現在需要用大數據分析來解決問題。 我想知道如何開始處理大數據。 - 如何開始使用簡單的Map/Reduce和使用Hadoop的 我如何利用我的技能,在R和Python來開始使用大數據分析。例如,使用Python Disco項目。 使用RHIPE包並查找玩具數據

    1熱度

    3回答

    我有兩個數據文件,每個100個字符。文件A:10 行,文件B:10 行。我需要找到所有的文件B不在文件A. 起初我想餵養這兩個文件到MySQL的字符串,但它看起來像它永遠不會完成創建於10 的唯一密鑰記錄。 我在等你對此的建議。

    1熱度

    2回答

    我正在做一些我們正在研究的桌面應用程序的一些分析。 一個要求是它能夠執行一些傳統文件格式的I/O,實際上每個文件格式的運行速度都高達800Mb。合理預期進口量可能在5Gb左右。 理想情況下,我只需將我想要的任何文件粘貼到jar文件中,簽署該文件,然後在稍後時間將其重新導入。 但我們的應用程序必須支持XP Pro(FAT32),它的最大文件大小限制在4Gb左右,從我所知道的。 我必須將數據分成多個塊

    1熱度

    3回答

    如何從網絡驅動器讀取5G日誌文件的Scala腳本應該被修改以讀取最後的x行(如Unix中的'tail')? ::#! @echo off call scala %0 %* goto :eof ::!# import scala.io.Source if (args.length > 0) { for (line <-Source.fromFile(args(0)).getLines

    9熱度

    2回答

    我想爲MySQL Cluster 6實現NDB集羣。我希望以最少的200萬條記錄來處理非常龐大的數據結構。 我想知道是否有任何實施NDB集羣的限制。例如,RAM大小,數據庫數量或NDB羣集的數據庫大小。

    8熱度

    6回答

    我想知道什麼具體問題/解決方案/建議/最佳做法[不要懲罰我這個詞]在處理大型數據庫時出現。 在巨大的我暗示數據庫,其中有數百萬行和/或數據庫與PB數據表的表。 面向平臺的答案也很棒。