bigdata

1熱度

5回答

我在我的系統中有一個大的分析模塊，並計劃使用vertica。有人建議我們在我們的應用程序的其餘部分（標準crud應用程序與我們的域中的模型）中使用vertica，以免管理多個數據庫。 vertvertica是否適合這種雙重場景？

2熱度

2回答

在一篇關於實施決策樹分析大數據的谷歌文章中，他們提到了一些有關正向調度地圖縮減作業的內容。他們說，如果他們目前有2個工作要運行，他們運行第一個工作，第二個工作開始設置。他們有一個線索，用於查看第一份工作何時完成以及何時完成，然後將輸入提供給第二份工作並啓動它。這爲他們節省了大量時間，因爲他們提到的算法具有迭代工作。我在想如何在hadoop上做到這一點。這裏是論文的引用。遠期計劃是在第6.1段

5熱度

3回答

NumPy：3字節，6字節類型（又名uint24，uint48）

NumPy似乎缺少對3字節和6字節類型的內置支持，也稱爲uint24和uint48。我有一個使用這些類型的大型數據集，並且想要將它提供給numpy。我目前（對uint24）做什麼： import numpy as np dt = np.dtype([('head', '<u2'), ('data', '<u2', (3,))]) # I would like to be able to wr

1熱度

1回答

數百萬記錄的增量更新，索引與加入

我目前正在制定增量更新用戶數據的策略。我們假設我們的數據庫中有100_000_000條記錄，每個工作流程更新大約1_000_000條記錄。這個想法是更新MapReduce作業中的記錄。使用索引存儲（如Cassandra）能夠隨機訪問當前記錄是否有用？或者最好從HDFS中檢索數據並將新信息加入現有記錄。記錄大小爲O（200字節）。用戶數據具有固定長度，但應可擴展。日誌事件具有相似但不相等的結構。

6熱度

4回答

改善散列函數值的分佈

假設我有大量的字符串（比如每個約50個字符的100億個字符串）。我想將這些字符串分配到10個桶中。每個桶應該佔據約10％的字符串。使用散列函數h（）我可以這樣做： int bucket_for_s = h(s) % 10 但是，這並不能保證分配的均勻性。假設我爲所有字符串做了上述操作，並發現30％轉到1號桶，5％轉到2號桶，等等。我的問題是：給定h（）分佈，有沒有辦法生成一個新的散列函數h2

0熱度

1回答

適用於海量數據的存儲方法

對於數量巨大的數據，您推薦使用什麼樣的存儲？（≈每天約5000萬條記錄）。對於像Hadoop或RDBMS這樣的系統來說，這種情況是否適合這種情況呢？

0熱度

1回答

Rsync性能 - 同步一個大文件vs同步多個小文件

我正在使用rsync同步許多小文件（每個4.5 MB）。我正在使用一個18000的bwlimit。我將執行批量rsync命令，使得 rsync -v dest_host：file1 dest_host：file2 dest_host：file3 dest_host：file4 dest_host：file5 ... src_dir。但我觀察到的是，對於上述帶寬，我無法每分鐘同步超過4個文件。這些

0熱度

1回答

HBase和hadoop一起工作

我正在尋找一些資源來設置這些與更新版本一起工作的資源。我看到的所有教程都是針對hadoop的舊版本的，有沒有人知道1.x的優秀資源？

1熱度

1回答

有沒有好的大數據演示/示例應用程序？

我正在尋找一個多服務器大數據示例應用程序，它可用於（a）嘗試安裝和配置大數據應用程序，以及（b）作爲開發此類應用程序的示例起點 - 編輯代碼，進行一些更改等等......在大多數技術（例如Java EE）中，這樣的應用程序非常普遍，並且作爲一個起點非常有用。如果它可以用於基準測試，甚至更好。如果它使用Hadoop，Cassandra，HBase，MongoDB，Hive，Redis中的一個（或

1熱度

4回答

的Java緩存框架

我想問一下，如果有人知道JAVA緩存框架具有以下屬性：我有大的數據文件（2MB高達5GB），這是我需要的，如果內存連載按需增加和反序列化它們。末最近使用的策略我要處理我自己的序列化/ deserializtion，這意味着我只是想從框架知道什麼時候我必須序列。反序列化是根據用戶的需求。我想有最小的IO，因爲我有大數據如果對此沒有直接的框架，也許你可以點我到heuristik或任何其他策略