2017-08-09 120 views
1

我是新來的大數據。我瞭解到HDFS用於存儲更多結構化數據,而HBase用於存儲非結構化數據。我有一個REST API,我需要獲取數據並將其加載到數據倉庫(HDFS/HBase)中。數據採用JSON格式。那麼哪一個會更好地加載數據? HDFS或HBase?你也可以請我指導一些教程來做到這一點。我遇到了這個約Tutorial with Streaming Data。但我不確定這是否符合我的用例。從REST API獲取數據並將其存儲在HDFS/HBase中

如果您能指導我使用特定的資源/技術來解決此問題,那將會非常有幫助。

回答

1

有幾個問題,你要想想

  1. 你想與批處理文件或流工作?這取決於你的REST API的請求速度

  2. 對於存儲來說,不僅僅有HDFS和Hbase,還有很多其他的解決方案,比如Casandra,MongoDB,Neo4j。一切都取決於你想用它(隨機艾策斯 VS 全掃描更新與版本 VS 寫新線併發訪問)的方式。例如,Hbase適用於隨機訪問,Neo4j適用於圖形存儲,如果您正在接收JSON文件,MongoDB可以作爲上帝之選,因爲它將對象存儲爲文檔。

  3. 什麼是你的數據的大小

這裏是問題的好文章來想想,當你開始一個大數據項目documentation

相關問題