我們正在制定策略,分析用戶對我們網站上1M +項目的「興趣」(點擊次數,喜歡等)以生成「類似項目」列表。使用Hadoop及相關項目分析不斷變化的使用模式
爲了處理大量的原始數據,我們正在學習Hadoop,Hive和相關項目。
我的問題是關於這個問題:Hadoop/Hive等似乎更適合數據轉儲,接下來是處理週期。據推測,處理週期的結束是相關項之間鏈接的索引圖的擴展。
如果我到目前爲止的軌道上,通常在這些情況下如何處理數據:即,
- 原始用戶數據是否按間隔重新分析以重建鏈接的索引圖?
- 我們是在流入數據時進行流式處理,分析數據並更新數據存儲?
- 由於分析結果數據發生變化,我們是否通常逐個更新它,或是批量重新處理?
- Cassandra比Hive/HDFS更好地解決了這個用例嗎?
我在尋找更好的理解這種大數據處理的常用方法。