1
劑量Spark序列化爲每個對象引用都生成對象?關於對象引用的Spark序列化
我有一份工作,所有行引用一個大對象,實際上因爲所有的只是對象引用,整體數據不超過1G。 但是,緩存壞事發生(the partition is too large to save)。
Java序列化preserving object reference by id。
Spark是一樣的還是它具體化(爆炸!)所有參考?我找不到關於此的文件,但我認爲應該有。