2017-01-09 54 views
-1

我有表#1,它有一列代表狀態值爲IL,TX,CA.還有另外一個表格(表格#2),其中有一個關於諸如(伊利諾伊州,伊利諾伊州),(德克薩斯州德克薩斯州),(加利福尼亞州,加利福尼亞州)的州描述的映射。我想添加一個新的列StateDescription到Table#1,並根據表2的StateDescription更新相應State字段的值。 大約需要5億條記錄。處理相同的最佳方法是什麼?卡桑德拉列更新基於來自其他表映射的值

回答

0

添加任何具有cassandra驅動程序的語言的列+寫腳本,並根據您描述的邏輯更新每行。您可以對部分數據執行並行執行,以獲得更好的吞吐量(如果您的集羣可以執行此操作)。

你也可以使用spark實現邏輯。