0
我有一個帶有重複觀測的SparkR DataFrame
。我找不到一個簡單的方法來刪除重複項,似乎PySpark dropDuplicates()
函數在SparkR中不可用。例如,如果我有以下DataFrame
,如何根據fullname
重複的事實刪除第2行和第4行?刪除SparkR DataFrame中的重複觀察
newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
surname = c("Smith", "Smith", "Taylor", "Taylor"),
value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))
|name | surname | value | fullname |
|--------|---------|-------|-----------|
|Thomas | Smith | 1.5 |ThomasSmith|
|Thomas | Smith | 1.5 |ThomasSmith|
|Bill | Taylor | 3.2 |BillTaylor |
|Bill | Taylor | 3.2 |BillTaylor |
謝謝!不知道我以前錯過了它。 –
感謝upvote和接受作爲答案:) –