bigdata

    0熱度

    1回答

    我有一個數據源一直在生成大量數據,我將這些數據定期放到我的hadoop羣集中。 我要分析這些數據每隔X分鐘,但我不希望在所有每次 只想把最後X分鐘,並分析它的數據來執行我的分析... 我我正在將數據實時發送到hbase, 要獲得最後的x分鐘並對此數據執行mr作業,最佳方法是什麼?

    0熱度

    1回答

    誰知道大約HPCC/HDFS connector.we同時使用HPCC和HADOOP.There是一個實用程序(HPCC/HDFS連接器)通過HPCC開發了允許HPCC簇接取HDFS數據 我已經安裝了連接器,但是當我運行程序來訪問hdfs中的數據時,它會給出錯誤,因爲libhdfs.so.0不存在。 我試圖建立libhdfs.so使用命令 ant compile-libhdfs -Dlibhdfs

    1熱度

    1回答

    我有下面的類: public class HPChartGraphPoint { public int Keyword { get; set; } public List<long> Points { get; set; } public HPChartGraphPoint() { Points = new List<long>();

    3熱度

    1回答

    如果我有一個4節點的羣集,其中1臺機器是名稱節點,其餘3臺機器是datanodes,並且如果將reducer的數量設置爲1,那麼哪個數據節點將運行減速機?

    0熱度

    3回答

    我一直在考慮以下選項。 senseidb [http://www.senseidb.com]這需要一個固定的模式還數據網關。所以沒有簡單的方法來推送數據,但提供數據流。我的數據是unstuctured和對面有各種日誌 了Riak [http://wiki.basho.com/Riak-Search.html] Vertica的很少共同的屬性 - 成本因素? HBase的(+的Hadoop生態系統+

    0熱度

    1回答

    我正面臨一個有趣的問題:我必須爲我的用戶顯示Facebook,Foursquare和Twitter的聚合源,我不知道要使用什麼解決方案。許多批處理並行運行,並且活動流中有許多更新。 我需要操作活動列表,所以我首先嚐試了Redis,但是當您使用許多sunionstore命令時複製不起作用。我一直在想: noSQL - > HBase。 newSQL - > VoltDB和SQLFire。 數據網格

    1熱度

    1回答

    我在hdfs中有一個非常大的hadoop序列文件。 從中獲取數據的最佳方式是什麼?即選擇記錄等。 可以通過配置單元完成嗎? 我如何在序列文件的配置單元中創建一個表? 感謝

    1熱度

    1回答

    這似乎是一個常見的用例...但不知何故,我無法得到它的工作。 我正在嘗試使用MongoDB作爲具有唯一項目的枚舉存儲。我創建了一個帶有byte [] Id(唯一ID)和一個時間戳(一個long,用於枚舉)的集合。該商店相當大(千兆字節),並分佈在不同的服務器中。目前我能夠從零開始重建商店,因爲我仍處於測試階段。 我想要做的是兩兩件事: 創建我插入每個項目的唯一ID。這基本上意味着如果我插入兩次相同

    33熱度

    11回答

    的數量現在我實現行數超過ResultScanner這樣 for (Result rs = scanner.next(); rs != null; rs = scanner.next()) { number++; } 如果數據達到了數以百萬計的時間計算是large.I要計算在,我不希望使用實時Mapreduce 如何快速計算行數。

    0熱度

    1回答

    我有一個列表,其索引達到百萬分之幾。讓我們說列表裏面的列表是一個文本句子。我想分割這些數據在不同的線程中處理。我用subList來拆分 數據並將它發送到不同的線程進行處理。這是分區數據的標準方法嗎?如果沒有,你能否建議我一些標準的接近呢?