bigdata

    0熱度

    1回答

    移植數據我對我目前的託管網站...大SQLServer數據庫 和 我想將其導入到谷歌BigData。 有沒有這樣的方法?

    1熱度

    2回答

    我想知道如何在Hadoop/HDFS/Hbase中對數據進行版本化。它應該是你的模型的一部分,因爲很可能發生變化(大數據是長時間收集的)。 HDFS(基於文件的後端)的主要示例。 採樣登錄file.log: timestamp x1 y1 z1 ... timestamp x2 y2 z2 ... 我現在不知道在哪裏添加的版本信息。我看到2種選擇: 文件格式內的版本 日誌file.log:

    2熱度

    1回答

    LevelDB是一個非常有趣的谷歌C++數據存儲。我在Java世界尋找類似的東西(坦率地說,我可以更好地理解代碼,更容易在Windows上運行它等)。 我理解的HBase和卡桑德拉也含有相同的基本技術:對的SSTable文件存儲,memTable中在內存中存儲(將垃圾分類之前並寫入磁盤),某種壓縮,定期壓實等 是否有任何努力從大項目中提取這項技術?我已經開始關注自己的代碼庫(主要是Cassandr

    19熱度

    2回答

    我的背景是生物信息學,特別是下一代測序,但問題是通用的;所以我會以一個日誌文件爲例。 的文件非常大(吉大,壓縮的,所以它不會裝入內存),但很容易解析(每行一個條目),因此我們可以很容易地編寫如下: parse :: Lazy.ByteString -> [LogEntry] 現在,我有很多統計數據,我想從日誌文件中計算出來。它是最簡單的寫獨立的功能,例如: totalEntries = len

    -2熱度

    2回答

    我將擁有一個具有uuids,年齡,性別,家庭收入和12個此類字段的用戶表數據庫。其中約有四千萬到五千萬。我需要根據年齡範圍,收入範圍等進行查詢,並獲取uuid的列表。如果連接,每行應該大約400個字符。乘以400字節乘以50Mil得到17 - 18 GB大約。它會增長,但會慢慢。 這將是最好的數據庫系統來保存這些數據,並執行快速查詢。 Mongo或MySQL?另外什麼樣的硬件應該最好保持。 而且,

    0熱度

    1回答

    我是hadoop的新手,最近我被要求用Hadoop做一個測試項目。 因此,當我重新評估BigData時,碰巧知道Pail。現在我想要做的就是這樣的事情。首先創建一個簡單的對象,然後使用Thrift將其序列化,然後使用Pail將其放入Hdfs中。然後我想在map函數中獲取這個對象並做我想做的事情。但我不知道如何在map函數中獲取tat對象。 有人可以告訴我任何參考或解釋如何做到這一點? 感謝名單

    0熱度

    1回答

    給定一個與索引'名稱'(唯一或不唯一)的基本藍圖兼容的OrientGraph,如果需要可以改進以下內容的任何建議? 注意:我找不到使用索引加載[blueprints]頂點的權威指南。我有一個大圖,使用('名字','鮑勃')(在控制檯)需要2分鐘!另一方面,基於索引的搜索以毫秒爲單位返回。 我想出迄今最好的: OrientGraph graph = new OrientGraph("local:/g

    0熱度

    1回答

    目前我有一個應用程序,用戶上傳文檔(pdfs/excel/word,幾張圖片)。找一個對大數據(Hadoop的MangoDB)解決方案,可以 存儲數千PDF,詞,Excel文件(因爲我們是規模增長過快) 搜索圖像的元信息 全文搜索(晴實時) 快速的檢索 請指教

    3熱度

    1回答

    我通過大量參數組合(20-40k)模擬合理大小的數據集(10-20mb)。通過mclapply推送每個數據集x參數集,結果爲list,其中每個項目包含輸出數據(如列表項目1)以及用於生成列表項目2(其中該列表的每個元素都是參數)的參數。 我剛剛跑過一個81K列表(但必須以30k塊運行它們),結果列表每個大約700 MB。我將它們存儲爲.rdata文件,但可能會將它們重新保存到.Rda。但每個文件需

    36熱度

    5回答

    R似乎真的是專門用來處理可以完全放入內存的數據集。推薦使用什麼R包進行信號處理和在非常大的數據集上進行機器學習,這些數據集不能被拉入內存? 如果R是根本錯誤的方式做到這一點,我願意接受其他強大的免費的建議(如SciPy的,如果有處理非常大的數據集,一些不錯的方式)