bigdata

0熱度

1回答

移植數據我對我目前的託管網站...大SQLServer數據庫和我想將其導入到谷歌BigData。有沒有這樣的方法？

1熱度

2回答

我想知道如何在Hadoop/HDFS/Hbase中對數據進行版本化。它應該是你的模型的一部分，因爲很可能發生變化（大數據是長時間收集的）。 HDFS（基於文件的後端）的主要示例。採樣登錄file.log： timestamp x1 y1 z1 ... timestamp x2 y2 z2 ... 我現在不知道在哪裏添加的版本信息。我看到2種選擇：文件格式內的版本日誌file.log：

2熱度

1回答

如何從cassandra或hbase中提取leveldb類型的數據存儲（sstable + memtable）？

LevelDB是一個非常有趣的谷歌C++數據存儲。我在Java世界尋找類似的東西（坦率地說，我可以更好地理解代碼，更容易在Windows上運行它等）。我理解的HBase和卡桑德拉也含有相同的基本技術：對的SSTable文件存儲，memTable中在內存中存儲（將垃圾分類之前並寫入磁盤），某種壓縮，定期壓實等是否有任何努力從大項目中提取這項技術？我已經開始關注自己的代碼庫（主要是Cassandr

19熱度

2回答

Haskell：我可以在同一個懶惰列表上執行多次摺疊而不在內存中保留列表嗎？

我的背景是生物信息學，特別是下一代測序，但問題是通用的;所以我會以一個日誌文件爲例。的文件非常大（吉大，壓縮的，所以它不會裝入內存），但很容易解析（每行一個條目），因此我們可以很容易地編寫如下： parse :: Lazy.ByteString -> [LogEntry] 現在，我有很多統計數據，我想從日誌文件中計算出來。它是最簡單的寫獨立的功能，例如： totalEntries = len

-2熱度

2回答

本用例的最佳數據庫和硬件選擇

我將擁有一個具有uuids，年齡，性別，家庭收入和12個此類字段的用戶表數據庫。其中約有四千萬到五千萬。我需要根據年齡範圍，收入範圍等進行查詢，並獲取uuid的列表。如果連接，每行應該大約400個字符。乘以400字節乘以50Mil得到17 - 18 GB大約。它會增長，但會慢慢。這將是最好的數據庫系統來保存這些數據，並執行快速查詢。 Mongo或MySQL？另外什麼樣的硬件應該最好保持。而且，

0熱度

1回答

如何將一個序列化的對象放入Hadoop DFS中並將其放回到map函數中？

我是hadoop的新手，最近我被要求用Hadoop做一個測試項目。因此，當我重新評估BigData時，碰巧知道Pail。現在我想要做的就是這樣的事情。首先創建一個簡單的對象，然後使用Thrift將其序列化，然後使用Pail將其放入Hdfs中。然後我想在map函數中獲取這個對象並做我想做的事情。但我不知道如何在map函數中獲取tat對象。有人可以告訴我任何參考或解釋如何做到這一點？感謝名單

0熱度

1回答

OrientDB GraphDatabase：用於@RID的OSQLSynchQuery以獲取graph.getVertex（rid）...從索引鍵加載頂點的最快方法？

給定一個與索引'名稱'（唯一或不唯一）的基本藍圖兼容的OrientGraph，如果需要可以改進以下內容的任何建議？注意：我找不到使用索引加載[blueprints]頂點的權威指南。我有一個大圖，使用（'名字'，'鮑勃'）（在控制檯）需要2分鐘！另一方面，基於索引的搜索以毫秒爲單位返回。我想出迄今最好的： OrientGraph graph = new OrientGraph("local:/g

0熱度

1回答

大數據CMS全文搜索

目前我有一個應用程序，用戶上傳文檔（pdfs/excel/word，幾張圖片）。找一個對大數據（Hadoop的MangoDB）解決方案，可以存儲數千PDF，詞，Excel文件（因爲我們是規模增長過快）搜索圖像的元信息全文搜索（晴實時）快速的檢索請指教

3熱度

1回答

什麼是存儲由R生成的大型結果的理想格式？

我通過大量參數組合（20-40k）模擬合理大小的數據集（10-20mb）。通過mclapply推送每個數據集x參數集，結果爲list，其中每個項目包含輸出數據（如列表項目1）以及用於生成列表項目2（其中該列表的每個元素都是參數）的參數。我剛剛跑過一個81K列表（但必須以30k塊運行它們），結果列表每個大約700 MB。我將它們存儲爲.rdata文件，但可能會將它們重新保存到.Rda。但每個文件需

36熱度

5回答

推薦用於在R中進行超大型數據集處理和機器學習的軟件包

R似乎真的是專門用來處理可以完全放入內存的數據集。推薦使用什麼R包進行信號處理和在非常大的數據集上進行機器學習，這些數據集不能被拉入內存？如果R是根本錯誤的方式做到這一點，我願意接受其他強大的免費的建議（如SciPy的，如果有處理非常大的數據集，一些不錯的方式）