1
我使用帶鑲木地板的火花。 我希望能夠緩存我們最常使用的列進行過濾,同時保留其他磁盤。 我運行類似:DataFrame的部分垂直緩存
myDataFrame.select("field1").cache
myDataFrame.select("field1").count
myDataFrame.select("field1").where($"field1">5).count
myDataFrame.select("field1", "field2").where($"field1">5).count
第四行不使用緩存。
任何簡單的解決方案,可以幫助這裏?
謝謝,實際上我的意思是我在那裏寫了(field1), ,因爲parquet是一種列式格式,我希望獲得緩存,只會對未被緩存的字段進行磁盤訪問。 雖然連接是一個可能的解決方案,但在大多數情況下,這將是非常昂貴的。 – roee