我有兩個數據幀DF1和DF2。我的任務是選擇存在的數據僅在DF1中,但不在DF2中。請有任何幫助。 我正在使用Spark 1.6 shell。Spark Dataframe連接 - 選擇僅出現在第一個數據幀中的數據
0
A
回答
0
您可以使用此。假設你的記錄由公共列id
鑑定:
val dfResult = df1.join(df2, Seq("id"), "leftanti")
-1
如何.. dataframe1.as("d1").join(dataframe2.as("d2"), $"d1.col1" === $"d2.col1").select($"d1.*")
其中col1是加入的列。這兩個dataframes需要具有相同的結構(同列)
在星火2.0,你可以做ANTI JOIN
val dfResult = df1.except(df2)
注:
+0
那不是給我從DF1的數據,從DF2匹配的數據。 ?? 我正在尋找DF1中不存在於DF2中的數據。 – Falcom
相關問題
- 1. 選擇一個數據庫連接池
- 2. Spark從一個數據幀創建多個數據幀
- 3. 在Apache Spark中分割數據幀
- 4. 如何根據R中第一個數據幀的列值按行連接兩個數據幀?
- 5. 每個數據幀分區的第一個元素Spark 2.0
- 6. 用於僅選擇在第一列中具有相同數據的行的第一次出現的SQL查詢
- 7. 根據列索引選擇Spark Dataframe
- 8. Spark 2.0數據集vs DataFrame
- 9. 數據幀排序依據Spark中
- 10. Spark從InputStream創建一個數據幀?
- 11. 試圖在一個數據幀中的另一個數據幀
- 12. 分析Spark中數據幀
- 13. pyspark dataframe在一個數據幀中合併多個json文件數據
- 14. sql server選擇第一次出現數據更改
- 15. 找到從一個數據幀出現在另一個數據幀中的行數R
- 16. 熊貓:在Dataframe中存儲數據幀
- 17. 提取所有,但一個變量的數據幀中第一次出現
- 18. 輸出位數的一個數據幀
- 19. 分割數據幀由指數在另一個數據幀
- 20. 僅從數據幀中選擇包含值大於5的列
- 21. Pandas中的Dataframe行的數據幀列
- 22. 在R中逐列連接數據幀
- 23. 連接2數據幀
- 24. 當連接到Phoenix查詢服務器時,Spark數據幀僅返回結構
- 25. 從另一個數據幀
- 26. Pyspark按另一個數據幀的列過濾數據幀
- 27. 選擇行中的數據幀中RGTK2
- 28. 將數據幀拆分爲兩個DataFrame
- 29. Spark數據幀數據聚合
- 30. 連接後的Spark數據幀null檢查整型列
這是一個非常酷的功能。不幸的是我正在尋找Spark 1.6 shell中的解決方案。 – Falcom