2016-12-24 101 views
0

在Spark中,我加載了一個數據集作爲RDD,並且很少將流數據附加到它。我知道RDD是不可變的,因爲它簡化了鎖定等。其他方法是將靜態數據和流數據作爲一個整體進行處理?Spark RDD apend

類似的問題已經被問過: Spark : How to append to cached rdd?

回答

1

看一看http://spark.apache.org/streaming/

使用Spark流,您將獲得一個數據結構,該數據結構表示可以迭代的RDD集合。它可以收聽卡夫卡隊列,文件系統等,以查找包含在下一個RDD中的新數據。

或者,如果您只是很少執行這些「附加」操作,則可以將具有相同模式的兩個RDD合併爲一個新的組合RDD。

+0

謝謝Brian。 Spark流似乎接近我真正想要的;一個分佈式的,可變的表格。我儘量避免使用union,因爲我的靜態數據很大。 – Vortex