0
在運行Apache Spark作業時遇到的問題之一是將RDD中的每個元素相互相乘。 簡單地說,我希望做一些類似的,將Spark RDD中的元素互相相加
目前,我這樣做是使用2次迭代的每個「的foreach」。我的直覺是,這可以以高效的方式完成。
for (elementOutSide <- iteratorA) {
for (elementInside <- iteratorB) {
if (!elementOutSide.get(3).equals(elementInside.get(3))) {
val multemp = elementInside.getLong(3) * elementOutSide.getLong(3)
....
...
}}}
誰能幫我糾正和改善這種情況?提前致謝 .. !!
我認爲你正在尋找一個普通的笛卡爾連接。 – Alec
順便說一句,你的實現並不真正符合要求 - 它比較了實際的_elements_而不是它們的_indices_--,當且僅當原始RDD的記錄是_unique_時,它才起作用。 –
它們是唯一的,RDD是使用保證的sql查詢構建的。 – Infamous