bigdata

0熱度

1回答

我有一個數據源一直在生成大量數據，我將這些數據定期放到我的hadoop羣集中。我要分析這些數據每隔X分鐘，但我不希望在所有每次只想把最後X分鐘，並分析它的數據來執行我的分析... 我我正在將數據實時發送到hbase，要獲得最後的x分鐘並對此數據執行mr作業，最佳方法是什麼？

0熱度

1回答

HPCC/HDFS連接器

誰知道大約HPCC/HDFS connector.we同時使用HPCC和HADOOP.There是一個實用程序（HPCC/HDFS連接器）通過HPCC開發了允許HPCC簇接取HDFS數據我已經安裝了連接器，但是當我運行程序來訪問hdfs中的數據時，它會給出錯誤，因爲libhdfs.so.0不存在。我試圖建立libhdfs.so使用命令 ant compile-libhdfs -Dlibhdfs

1熱度

1回答

快速保存\負荷大數據

我有下面的類： public class HPChartGraphPoint { public int Keyword { get; set; } public List<long> Points { get; set; } public HPChartGraphPoint() { Points = new List<long>();

3熱度

1回答

哪臺機器運行Hadoop的Reducer

如果我有一個4節點的羣集，其中1臺機器是名稱節點，其餘3臺機器是datanodes，並且如果將reducer的數量設置爲1，那麼哪個數據節點將運行減速機？

0熱度

3回答

需要解決方案來歸檔日誌並具有實時搜索功能

我一直在考慮以下選項。 senseidb [http://www.senseidb.com]這需要一個固定的模式還數據網關。所以沒有簡單的方法來推送數據，但提供數據流。我的數據是unstuctured和對面有各種日誌了Riak [http://wiki.basho.com/Riak-Search.html] Vertica的很少共同的屬性 - 成本因素？ HBase的（+的Hadoop生態系統+

0熱度

1回答

時間線數據存儲解決方案

我正面臨一個有趣的問題：我必須爲我的用戶顯示Facebook，Foursquare和Twitter的聚合源，我不知道要使用什麼解決方案。許多批處理並行運行，並且活動流中有許多更新。我需要操作活動列表，所以我首先嚐試了Redis，但是當您使用許多sunionstore命令時複製不起作用。我一直在想： noSQL - > HBase。 newSQL - > VoltDB和SQLFire。數據網格

1熱度

1回答

hadoop - 從非常大的序列文件中獲取數據的最佳方式是什麼？

我在hdfs中有一個非常大的hadoop序列文件。從中獲取數據的最佳方式是什麼？即選擇記錄等。可以通過配置單元完成嗎？我如何在序列文件的配置單元中創建一個表？感謝

1熱度

1回答

如何使用MongoDB作爲唯一/枚舉存儲

這似乎是一個常見的用例...但不知何故，我無法得到它的工作。我正在嘗試使用MongoDB作爲具有唯一項目的枚舉存儲。我創建了一個帶有byte [] Id（唯一ID）和一個時間戳（一個long，用於枚舉）的集合。該商店相當大（千兆字節），並分佈在不同的服務器中。目前我能夠從零開始重建商店，因爲我仍處於測試階段。我想要做的是兩兩件事：創建我插入每個項目的唯一ID。這基本上意味着如果我插入兩次相同

33熱度

11回答

HBase的快速計算行

的數量現在我實現行數超過ResultScanner這樣 for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } 如果數據達到了數以百萬計的時間計算是large.I要計算在，我不希望使用實時Mapreduce 如何快速計算行數。

0熱度

1回答

分區數據集的子列表

我有一個列表，其索引達到百萬分之幾。讓我們說列表裏面的列表是一個文本句子。我想分割這些數據在不同的線程中處理。我用subList來拆分數據並將它發送到不同的線程進行處理。這是分區數據的標準方法嗎？如果沒有，你能否建議我一些標準的接近呢？