我有一個來自IoT應用程序的帶有JSON數據的Kafka代理。我從Spark Streaming應用程序連接到此服務器以執行一些處理。如何訪問Spark Streaming應用程序中的緩存數據?
我想保存在內存(RAM)我的JSON數據的一些特定領域,我相信我可以使用cache()
和persist()
運營商實現。
下一次當我在Spark Streaming應用程序中接收到新的JSON數據時,我檢查內存(RAM)是否有可以檢索的公用字段。如果是的話,我做一些簡單的計算,最後我更新存儲在內存中的字段的值(RAM)。
因此,我想知道我之前所描述的是否有可能。如果是,我必須使用cache()還是persist()?我怎樣才能從記憶中檢索我的領域?