我有一個實例從數據框df1中提取,我想檢查該實例是否在Pyspark的另一個數據框df2中。有辦法面對嗎?如何檢查實例是否位於Pyspark的數據框中?
例如:
實例:
+------+------+------+
| Atr1 | Atr2 | Atr3 |
+------+------+------+
| 'A' | 2 | 'B' |
+------+------+------+
數據框:
+------+------+------+
| Atr1 | Atr2 | Atr3 |
+------+------+------+
| 'C' | 1 | 'B' |
+------+------+------+
| 'D' | 2 | 'A' |
+------+------+------+
| 'E' | 2 | 'C' |
+------+------+------+
| 'A' | 2 | 'B' |
+------+------+------+
這樣,我想是因爲實例數據幀(第4行),以獲得正確的。
謝謝。
我不知道我是否正確理解你的問題,但你在尋找類似['except']的東西(https://spark.apache.org/docs/latest/api/java/org/apache/ spark/sql/Dataset.html#except-org.apache.spark.sql.Dataset-)? – philantrovert
我正在尋找除了以外的東西。我的意思是,有些東西告訴我一個實例是否在數據框中。我會編輯我的問題以獲得更好的理解。 – jartymcfly
你試過'instance.except(df).take(1).isEmpty'嗎? – philantrovert