2016-12-26 209 views

回答

2

火花使用bucket sort的分佈式變體:

  • 數據使用RangePartitioner成一定數目的桶的分配。
  • 每個桶在洗牌過程中分開排序。
+0

不是。 Spark中'sort'的直覺與我們通常關於'sorted'集合的想法完全不同。你的直覺似乎受到我們如何看待正常世界中的「藏品」的限制。這個問題可能會讓你對這種差異有所瞭解 - 「對於應該支持並行計算的分佈式集合進行排序,你甚至認爲什麼」。一個提示......您可能想要控制管道中後來出現的「消費者/迭代器/累加器」,以便以某種方式使用此分佈式集合來維護順序。 –

+0

因此它成爲一個叫做OrderedRDD的特殊RDD,它負責確保進一步下游的'消費者/迭代器/累加器'知道保存這個'訂單'。請記住,RDD實際上從未按照正常的「排序」定義進行「排序」。 –

+0

@SarveshKumarSingh沒有OrderedRDD這樣的東西。 – user7337271