我對Spark和Scala中的並行性有些困惑。我正在運行一個實驗,在該實驗中,我必須從磁盤更改/處理某些列中讀取許多(csv)文件,然後將其寫回磁盤。瞭解Spark和Scala中的並行性
在我的實驗中,如果我使用SparkContext的並行化方法,那麼它對性能沒有任何影響。然而,簡單地使用Scala的平行集合(通過par)將時間減少到幾乎一半。
我正在本地主機模式下運行我的實驗,使用參數local [2]作爲spark上下文。
我的問題是什麼時候應該使用scala的並行集合以及何時使用spark上下文的並行化?
斯卡拉有各種平行集合。請參閱:http://docs.scala-lang.org/overviews/parallel-collections/conversions.html和http://docs.scala-lang.org/overviews/parallel-collections/concrete-parallel-collections.html –