我需要計算Scala Array
中存在的每個對的出現次數,並且後者是分佈式的。所以:使用Apache Spark,如何計算Scala陣列中每個對的出現
我必須計算每對上存在的
RDD
是我的羣集節點的出現(即:「關於分佈式Array
的每一部分」)。這意味着我將得到x個結果^ 1,其中x:我的羣集節點的數量。然後,司機必須加起來的結果,要知道分配
Array
的每對出現次數。
^1:請注意,一個結果是每一對自己的分佈式Array
的一部分的羣集的節點計數。我認爲HashMap
在那裏使用會很好。順便說一句,HashMap
也會被驅動程序使用。司機將不得不總結其HashMap
的每個案件與它從羣集節點收到的相應案件HashMap
。
小心分享示例數據集和預期輸出? – mtoto
當然!我只是添加了一張圖來說明我的話。輸入和輸出數據集被給出。 –
您是否可以不粘貼數據的附加圖像,但以可重現的格式粘貼代碼和數據? – mtoto