2017-11-10 12 views
0

想象一下,你有一個歷史數據,每天有數百萬行的數據被添加到它。有必要每天處理整個數據並更新變量。您如何使用大數據平臺解決這個問題?每天處理10行B數據以創建變量(計算列)的最佳方法是什麼?

如果需要,歡迎提供更多細節。

+0

你有什麼「大數據平臺」? HDFS將高興地存儲您的數據,並且Spark將很高興地處理它。 –

+0

我正在考慮將Hortonworks作爲大數據平臺。但挑戰在於我需要每天對整個數據集進行聚合處理。 –

+0

爲什麼這是一個挑戰?設置一個日常流程來做你想做的事情。 Hortonworks爲此提供Oozie –

回答

1

儘量不要重新處理整個10B行...我不知道你在大數據集中究竟找到了什麼,但是很可能有一個統計模型可以保存摘要信息,只是重新處理增量反對。

cricket_007是正確的,但HDFS和Spark可能是您首選的工具。

+0

它更像是擁有十億行的原始數據,業務需求是爲了建模每天對數據執行彙總過程。 –

相關問題