Apache Spark RDD不同 - 奇怪的行爲

2015-04-06 97 views 2 likes

我有一個尺寸80'000的pairRDD。只有1.5％的條目是唯一的。爲了篩選出複製的數據我稱之爲distinct方法：Apache Spark RDD不同 - 奇怪的行爲

val newRDD = oldRDD.distinct

然而，這不僅能消除大部分的重複數據 - 它留下3-5之間重複每個唯一的入口！

我檢查了剩餘的條目與原始條目，它們完全一樣。

Sample of the original data: 

(1,(0.0500937328554143, 0.9000767961093774)) 
(1,(0.0500937328554143, 0.9000767961093774)) 
(1,(0.0500937328554143, 0.9000767961093774)) 

Sample of the distinct data: 

(1,(0.0500937328554143, 0.9000767961093774)) 
(1,(0.0500937328554143, 0.9000767961093774)) 
(1,(0.0500937328554143, 0.9000767961093774))

有什麼，我想知道如何distinct工作？

來源

2015-04-06 monster

回答

這些數字在轉換爲字符串後比較相等，但根據distinct如何處理它們，它們在轉換之前不得等於相等。不要打印它們，請檢查比較結果（==）。

來源

2015-04-06 18:33:27

至少這是我的猜測。如果他們確實比較相等，則必須有一個微妙的解釋。 –

謝謝你的回覆，丹尼爾。我想知道爲什麼會發生這種情況，爲什麼在135個參賽作品中，它決定了3個與其他作品不同，並且彼此之間（我對他們又做了「獨特」處理，而且都保留在RDD中）。這也很奇怪，因爲我把1個條目放入地圖中，然後複製它。然後我把它們拿出來，他們已經改變了。奇怪的行爲。 – monster

你發現了什麼？它們與'=='相等嗎？這確實是一個奇怪的行爲。即使通過所有的序列化和傳輸，我也不會期望相同的數字變得不相等。 –

相關問題

1. Apache Spark RDD值查找
2. Apache Spark：如何將Spark DataFrame轉換爲類型爲RDD [（Type1，Type2，...）]的RDD？
3. 比較RDD對象-Apache Spark
4. 在apache-spark RDD中處理多個'行'
5. Apache Spark Rdd持續存在
6. Apache .htaccess的行爲奇怪嗎？
7. Apache HttpClient 4.0。奇怪的行爲
8. 奇怪的行爲：相同的代碼，不同的錯誤
9. 奇怪的行爲
10. 奇怪的行爲
11. 奇怪的行爲
12. 奇怪的行爲
13. 奇怪行爲
14. 奇怪的行爲
15. 奇怪的行爲
16. 奇怪行爲
17. 奇怪行爲
18. 奇怪的行爲：
19. 奇怪的行爲
20. 奇怪的行爲
21. 奇怪的行爲
22. 奇怪的行爲
23. 奇怪的行爲
24. 奇怪的行爲
25. 奇怪的行爲（）
26. 奇怪的行爲
27. 奇怪的行爲
28. 奇怪的行爲
29. 奇怪的行爲
30. 奇怪的行爲