刪除SparkR DataFrame中的重複觀察

我有一個帶有重複觀測的SparkR DataFrame。我找不到一個簡單的方法來刪除重複項，似乎PySpark dropDuplicates()函數在SparkR中不可用。例如，如果我有以下DataFrame，如何根據fullname重複的事實刪除第2行和第4行？刪除SparkR DataFrame中的重複觀察

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"), 
    surname = c("Smith", "Smith", "Taylor", "Taylor"), 
    value = c(1.5, 1.5, 3.2, 3.2)) 
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname)) 

|name | surname | value | fullname | 
|--------|---------|-------|-----------| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Thomas | Smith | 1.5 |ThomasSmith| 
|Bill | Taylor | 3.2 |BillTaylor | 
|Bill | Taylor | 3.2 |BillTaylor |

來源

2017-06-20 Gaurav Bansal

有在sparkR功能dropDuplicates也可以使用如

dropDuplicates(newHire, "fullname")

請參閱here

希望這有助於！

來源

2017-06-20 15:23:20

謝謝！不知道我以前錯過了它。 –

感謝upvote和接受作爲答案:) –

刪除SparkR DataFrame中的重複觀察

回答

相關問題