Spark RDD apend

在Spark中，我加載了一個數據集作爲RDD，並且很少將流數據附加到它。我知道RDD是不可變的，因爲它簡化了鎖定等。其他方法是將靜態數據和流數據作爲一個整體進行處理？Spark RDD apend

2016-12-24 Vortex

使用Spark流，您將獲得一個數據結構，該數據結構表示可以迭代的RDD集合。它可以收聽卡夫卡隊列，文件系統等，以查找包含在下一個RDD中的新數據。

或者，如果您只是很少執行這些「附加」操作，則可以將具有相同模式的兩個RDD合併爲一個新的組合RDD。

2016-12-24 05:04:22 Brian

謝謝Brian。 Spark流似乎接近我真正想要的;一個分佈式的，可變的表格。我儘量避免使用union，因爲我的靜態數據很大。 – Vortex

回答