bigdata

40熱度

2回答

我一直是R的很長一段時間的用戶，並且最近開始使用Python。使用傳統的RDBMS系統進行數據倉庫，使用R/Python進行數字處理，我覺得現在需要用大數據分析來解決問題。我想知道如何開始處理大數據。 - 如何開始使用簡單的Map/Reduce和使用Hadoop的我如何利用我的技能，在R和Python來開始使用大數據分析。例如，使用Python Disco項目。使用RHIPE包並查找玩具數據

1熱度

3回答

大數據排序和搜索

我有兩個數據文件，每個100個字符。文件A：10 行，文件B：10 行。我需要找到所有的文件B不在文件A. 起初我想餵養這兩個文件到MySQL的字符串，但它看起來像它永遠不會完成創建於10 的唯一密鑰記錄。我在等你對此的建議。

1熱度

2回答

非常大的jar文件和FAT32

我正在做一些我們正在研究的桌面應用程序的一些分析。一個要求是它能夠執行一些傳統文件格式的I/O，實際上每個文件格式的運行速度都高達800Mb。合理預期進口量可能在5Gb左右。理想情況下，我只需將我想要的任何文件粘貼到jar文件中，簽署該文件，然後在稍後時間將其重新導入。但我們的應用程序必須支持XP Pro（FAT32），它的最大文件大小限制在4Gb左右，從我所知道的。我必須將數據分成多個塊

1熱度

3回答

如何從網絡驅動器讀取5G日誌文件的Scala腳本應該修改以讀取最後的x行（如Unix中的'tail'）？

如何從網絡驅動器讀取5G日誌文件的Scala腳本應該被修改以讀取最後的x行（如Unix中的'tail'）？ ::#! @echo off call scala %0 %* goto :eof ::!# import scala.io.Source if (args.length > 0) { for (line <-Source.fromFile(args(0)).getLines

9熱度

2回答

實現MySQL NDB集羣有哪些限制？

我想爲MySQL Cluster 6實現NDB集羣。我希望以最少的200萬條記錄來處理非常龐大的數據結構。我想知道是否有任何實施NDB集羣的限制。例如，RAM大小，數據庫數量或NDB羣集的數據庫大小。

8熱度

6回答

關於處理大型數據庫，我需要知道些什麼？

我想知道什麼具體問題/解決方案/建議/最佳做法[不要懲罰我這個詞]在處理大型數據庫時出現。在巨大的我暗示數據庫，其中有數百萬行和/或數據庫與PB數據表的表。面向平臺的答案也很棒。