2017-06-19 86 views
1

我們已經將csv(> 900 GB)數據文件存儲在已定義Hive 0.14表的HDFS文件系統中。我們需要對數據執行少量分析查詢以及對數據執行更新。基本上這個數據量是RDBMS類型的系統。任何人都可以提出RDBMS類型系統(更新,選擇)的潛在選項是否是保持頭腦表現的重要標準。用於大數據的RDBMS

+0

Hive支持更新和分析查詢。你想要達到哪些你不能使用Hive的具體內容? –

+0

@piyushpankaj hive確實支持更新,但如果您考慮這麼多的數據,將會非常昂貴。 – philantrovert

+0

這就是我們正面臨的確切問題。我們希望嘗試儘可能快地保持更新,因爲可能有多個系統可能導出某些需要更新到Hive表中的數據的指標 –

回答

0

PostgreSQL是從EDL加載數據的好選擇。您可以將熱門數據放在那裏執行一些快速查詢。

+0

這看起來有點困難,因爲我們試圖加載該批次數據在每天的基礎上。現在每天的批量數據量可能接近300GB +左右。把這些數據放入postgres本身就是一件耗時的工作。我們正在尋找一些關於大數據世界的RDBMS,這些大數據世界都是開源的 –