bigdata

    1熱度

    5回答

    我在我的系統中有一個大的分析模塊,並計劃使用vertica。 有人建議我們在我們的應用程序的其餘部分(標準crud應用程序與我們的域中的模型)中使用vertica,以免管理多個數據庫。 vertvertica是否適合這種雙重場景?

    2熱度

    2回答

    在一篇關於實施決策樹分析大數據的谷歌文章中,他們提到了一些有關正向調度地圖縮減作業的內容。 他們說,如果他們目前有2個工作要運行,他們運行第一個工作,第二個工作開始設置。他們有一個線索,用於查看第一份工作何時完成以及何時完成,然後將輸入提供給第二份工作並啓動它。這爲他們節省了大量時間,因爲他們提到的算法具有迭代工作。 我在想如何在hadoop上做到這一點。這裏是論文的引用。遠期計劃是在第6.1段

    5熱度

    3回答

    NumPy似乎缺少對3字節和6字節類型的內置支持,也稱爲uint24和uint48。 我有一個使用這些類型的大型數據集,並且想要將它提供給numpy。我目前(對uint24)做什麼: import numpy as np dt = np.dtype([('head', '<u2'), ('data', '<u2', (3,))]) # I would like to be able to wr

    1熱度

    1回答

    我目前正在制定增量更新用戶數據的策略。我們假設我們的數據庫中有100_000_000條記錄,每個工作流程更新大約1_000_000條記錄。 這個想法是更新MapReduce作業中的記錄。使用索引存儲(如Cassandra)能夠隨機訪問當前記錄是否有用?或者最好從HDFS中檢索數據並將新信息加入現有記錄。 記錄大小爲O(200字節)。用戶數據具有固定長度,但應可擴展。日誌事件具有相似但不相等的結構。

    6熱度

    4回答

    假設我有大量的字符串(比如每個約50個字符的100億個字符串)。我想將這些字符串分配到10個桶中。每個桶應該佔據約10%的字符串。使用散列函數h()我可以這樣做: int bucket_for_s = h(s) % 10 但是,這並不能保證分配的均勻性。假設我爲所有字符串做了上述操作,並發現30%轉到1號桶,5%轉到2號桶,等等。我的問題是: 給定h()分佈,有沒有辦法生成一個新的散列函數h2

    0熱度

    1回答

    對於數量巨大的數據,您推薦使用什麼樣的存儲? (≈每天約5000萬條記錄)。對於像Hadoop或RDBMS這樣的系統來說,這種情況是否適合這種情況呢?

    0熱度

    1回答

    我正在使用rsync同步許多小文件(每個4.5 MB)。我正在使用一個18000的bwlimit。我將執行批量rsync命令,使得 rsync -v dest_host:file1 dest_host:file2 dest_host:file3 dest_host:file4 dest_host:file5 ... src_dir。 但我觀察到的是,對於上述帶寬,我無法每分鐘同步超過4個文件。這些

    0熱度

    1回答

    我正在尋找一些資源來設置這些與更新版本一起工作的資源。我看到的所有教程都是針對hadoop的舊版本的,有沒有人知道1.x的優秀資源?

    1熱度

    1回答

    我正在尋找一個多服務器大數據示例應用程序,它可用於(a)嘗試安裝和配置大數據應用程序,以及(b)作爲開發此類應用程序的示例起點 - 編輯代碼,進行一些更改等等......在大多數技術(例如Java EE)中,這樣的應用程序非常普遍,並且作爲一個起點非常有用。 如果它可以用於基準測試,甚至更好。 如果它使用Hadoop,Cassandra,HBase,MongoDB,Hive,Redis中的一個(或

    1熱度

    4回答

    我想問一下,如果有人知道JAVA緩存框架具有以下屬性: 我有大的數據文件(2MB高達5GB),這是我需要的,如果內存連載按需增加和反序列化它們。 末最近使用的策略 我要處理我自己的序列化/ deserializtion,這意味着我只是想從框架知道什麼時候我必須序列。反序列化是根據用戶的需求。 我想有最小的IO,因爲我有大數據 如果對此沒有直接的框架,也許你可以點我到heuristik或任何其他策略