我試圖去掌握大數據,主要是大數據的管理方式。大數據去哪裏以及它如何存儲?
我熟悉數據管理和數據生命週期的傳統形式;例如:
- 結構化數據收集(例如web表單)
- 存儲在表中在RDBMS的數據庫服務器上的數據
- 數據清洗,然後ETL'd到數據倉庫
- 分析數據使用OLAP多維數據集和其他各種BI工具/技術
然而,在大數據的情況下,我感到困惑的點2和3的等效版本,主要是因爲我不確定是否所有的大數據「解決方案離子「總是涉及使用NoSQL數據庫處理和存儲非結構化數據,以及大數據等同於數據倉庫的內容。
從我所看到的情況來看,在某些情況下,NoSQL並不總是被使用,並且完全可以省略 - 這是真的嗎?
對我來說,大數據生命週期的推移這個東西線:
- 收集的數據(結構化/非結構化/半)存儲在大數據平臺上的NoSQL數據庫
- 數據;例如HBase服務器的MapR Hadoop發行版。
- 大數據分析/數據挖掘工具的清潔和分析數據
但我有一種感覺,這是情況並非總是如此,和第3點可能是完全錯誤的乾脆。任何人都可以對此有所瞭解嗎?
那麼我說的是NoSQL不一定用於解決方案嗎?此外,NoSQL和傳統的RDBMS一樣是作爲存儲數據的手段,但與傳統的數據庫系統不同,RDBMS是關鍵組件,而NoSQL數據庫是一個可選組件? – RoyalSwish
如果你看看NoSQL堆棧,你有各種類型的數據庫。一個類別是BigTable。 HBase是一個BigTable數據庫,與Hadoop一起使用,可將結果存儲在允許快速訪問的商店中。 Hadoop之上還有許多圖形數據庫和引擎。 所以我想說,Hadoop中有一些NoSQL主題。但是,每個大數據項目都不需要NoSQL。 –