1
它的Hadoop MapReduce的shuffle的默認行爲進行排序分區內的洗牌鍵排序跨越分區,但是不交分區(這是總排序,使關鍵字排序跨越parttions)排序分區中,但沒有使用星火RDD
我會問如何使用星火RDD來實現同樣的事情(排序中的分區,而不是那種跨分區)
- RDD的
sortByKey
方法是做總訂貨 - RDD的
repartitionAndSortWithinPartitions
的分區中的排序做但不跨越分區離子,但不幸的是,它增加了一個額外的步驟來做重新分區。
是否有分區中的排序,但不能跨越分區
直接的方式
感謝@ user7849215提供了有用的答案。有沒有辦法做sortWithinPartitions與原始RDD? – Tom