我目前正在制定增量更新用戶數據的策略。我們假設我們的數據庫中有100_000_000條記錄,每個工作流程更新大約1_000_000條記錄。數百萬記錄的增量更新,索引與加入
這個想法是更新MapReduce作業中的記錄。使用索引存儲(如Cassandra)能夠隨機訪問當前記錄是否有用?或者最好從HDFS中檢索數據並將新信息加入現有記錄。
記錄大小爲O(200字節)。用戶數據具有固定長度,但應可擴展。日誌事件具有相似但不相等的結構。用戶記錄的數量可能會增加。近乎實時的更新是可取的,即。 3小時的時間間隔是不可接受的,幾分鐘就可以。
您是否對這些規模和數據有過任何經驗? 豬加盟速度是否夠快?閱讀所有記錄是否始終是瓶頸? Cassandra能夠有效地保存這些數據量嗎?哪種解決方案可擴展?那系統的複雜性呢?