關於對象引用的Spark序列化

劑量Spark序列化爲每個對象引用都生成對象？關於對象引用的Spark序列化

我有一份工作，所有行引用一個大對象，實際上因爲所有的只是對象引用，整體數據不超過1G。但是，緩存壞事發生（the partition is too large to save）。

Java序列化preserving object reference by id。
Spark是一樣的還是它具體化（爆炸！）所有參考？我找不到關於此的文件，但我認爲應該有。

這不是一個你應該問的關於大對象的問題，而是涉及一些涉及小對象和引用平等的案例。

2017-02-28 18:46:11 Tim

回答