2015-02-08 84 views
0

我最近開始閱讀大數據,以及像hadoop或BigInsights這樣的工具如何管理結構化和非結構化數據。社交媒體數據如何非結構化數據?

社交媒體分析是可以在BigInsights上完成的事情,它需要非結構化數據並相應地分析/構建它。

這讓我想知道,社交媒體數據如何非結構化?例如,您可以使用Twitter REST API調用您可以在Twitter上收到的信息,並以結構化的JSON格式返回給您。

那麼社交媒體數據是否已經結構化?如果是這樣,爲什麼你需要一個主要管理非結構化數據的平臺?

回答

1

也有一些區別是「半結構」。

但重點是查詢數據的能力。是的,推文等通常有一些結構。但是對分析沒有幫助。

給定一個醜陋的SQL模式,你確實可以運行像

SELECT AVG(TweetID) FROM Twitter; 

一個查詢,但該功能是沒用的實踐中。這可能就是爲什麼這些數據最好被認爲是非結構化的:你不會從擠壓到關係模式中獲益。

雖然,注意大數據的流行語賓果遊戲。通常情況下,「支持非結構化數據」實際上意味着「不受數據結構(通過使用索引)但每次重讀數據」

1

它不僅僅是獲取推文。數據的真實價值在於瞭解正在推送的內容。考慮Facebook,在那裏我們可以評論任何圖片或視頻。我們需要一個平臺來了解所有評論對於視頻的正面評論,或者有多少評論,或者有多少評論是關於它的真實反饋。有多少人提出建議,以做出更好的建議。而且你還需要知道視頻分享和喜歡的次數。所有分享的人都是誰,誰不喜歡它或喜歡它。可以收集如此多種類的數據,因此這些都被稱爲非結構化數據。