bigdata

1熱度

2回答

譜系如何幫助重新計算數據？例如，我有幾個節點每個計算數據30分鐘。如果15分鐘後失敗，我們可以重新計算在15分鐘內處理的數據，而不用再給15分鐘嗎？

0熱度

2回答

我們正在尋找具有以下標準的技術堆棧。我們將有大約1000萬客戶。每位客戶將擁有大約20MB的數據。每個用戶的數據將會每天更新。我們需要將數據存儲超過六個月。我們可能需要在六個月的時間範圍內隨時查詢數據。目前我們正在考慮使用Cassandra，但Cassandra中每個節點的最大存儲限制應該小於3TB，我們正在尋找其他Cassandra的替代方案。

0熱度

1回答

在豬得到錯誤爲'錯誤編譯運算符POLocalRearrange'

我正在練習克盧代拉紗VMware Player（非商業用途）。我在豬腳本是， a1 = load '/user/training/my_hdfs/id' using PigStorage('\t') as(id:int,name:chararray,desig:chararray); a2 = load '/user/training/my_hdfs/trips' using PigStorag

1熱度

2回答

如果我想使用歷史數據預測未來購物在線購物，我是否需要數據科學或數據分析或大數據？

我想學會預測未來的事件，例如......能夠使用過去二十年的飛機失事數據預測2018年的飛機失事數......或者......預測有多少發球臺帶有justin beibers臉的襯衫將於2018年銷售，具體取決於previuos數據的粉絲數量..........或者如果他們決定以相同的精確度發佈多少個iPhone 8和samsungs s9，日期....預測有點準確的整個銷售市場.....這樣的東

0熱度

1回答

動態檢索存在於Solr文檔中的所有字段

是否可以動態檢索存在於一組Solr文檔中的所有字段並仍保持合理的性能？這裏的最終目標是爲用戶動態填充數字字段列表，以便對其當前查詢進行排序。在一個完美的世界中，我希望能夠讓這個列表包含用戶查詢返回的文檔中存在的所有數字字段。但是，如果這是不可能實現的，我將通過luke處理程序用數字字段填充列表。不幸的是，似乎luke處理程序爲整個集合返回字段，但不能僅限於當前查詢。我是Solr的新手，所以任

0熱度

1回答

Hive與表中數據的比較

我進入DW測試並需要比較源數據到目標數據。源數據存儲在hive/RDBMS中，而目標數據加載到Hbase中。我是Hbase的新手。任何人都可以幫助我採取我可以採取的方法。我正在尋找的是與「MINUS」類似的功能。可能嗎？

0熱度

1回答

使用Hadoop查詢github數據

我想查詢使用hadoop的ghtorrent API提供的GitHub數據。我如何將這麼多數據（4-5 TB）注入HDFS？另外，他們的數據庫是實時的。是否有可能使用諸如pig，hive，hbase之類的工具來處理hadoop中的實時數據？

2熱度

1回答

HBase表大小在一段時間後下降

我們在將數據存儲在HBase中時遇到了一個問題。我們採取了以下步驟： Spark應用程序正在使用hfiles作爲結果（結果數據大小：180 G）處理Big csv文件（大小：20 G）。通過使用命令創作表的：從創建hfiles 'TABLE_NAME', {'NAME'=>'cf', 'COMPRESSION'=>'SNAPPY'} 數據被表的裝載後，用命令hbase org.apache.ha

0熱度

2回答

大型數據集問題（250MB）中的R加載

我試圖導入一個巨大的數據集（稍後做分析），但我只想要4行（它們按實用程序分類，而我只對在其中幾個）。問題是：該格式是奇怪的和巨大的，我不斷收到有關沒有足夠的列名稱的錯誤。格式如下：每行是一個公用事業區域，每一列從2015年夏季到現在每一小時，以及其用電量，所以有很多列（2015年至今的小時數x 2）。我已經試過如下： > data<-read.table("C:\\Users\\EBA.tx

2熱度

1回答

保存我的Apache Spark管道的中間狀態

我有一個相當複雜的Apache PySpark管道，它對（很大的）一組文本文件執行幾個轉換。我的管道的預期產量是管道的不同階段。這是最好的方式（即更有效率，但更多波光粼粼的，意義在於：更適合Spark編程模型和風格）來做到這一點？現在，我的代碼如下所示： # initialize the pipeline and perform the first set of transformations.