星火重新分區不分發記錄均勻

我有我的一個領域星火重新分區不分發記錄均勻

rdd = rdd.repartition(new Column("block_id"));

重新分區，並將其保存到HDFS的RDD。

我認爲如果有20個不同的block_id's，重新分區會產生20個新的分區，每個分區有不同的block_id。但實際上在重新分區後有19個分區，每個分區只有一個block_id和一個分區擁有兩個block_id's。這意味着，使用兩個block_id的磁盤寫入分區的核心與其他內核相比需要兩倍的時間，因此總體時間加倍。

來源

2017-07-30 Eran Moscovici

我很困惑，對'的'方法repartition' RDD'只需要一個'Int'，而不是一個'Column' –