行我有一個數據集,看起來像這樣:刪除「半副本」中的R
text id screenName retweetCount isRetweet retweeted longitude latitude
1 xx 778980737861062656 0504Traveller 0 FALSE FALSE <NA> <NA>
2 xx 778967536167559168 Iz_Azman 0 FALSE FALSE <NA> <NA>
3 yy 778962265298960384 Iz_Azman 0 FALSE FALSE <NA> <NA>
4 yy 778954988122939392 travelindtoday 2 FALSE FALSE <NA> <NA>
5 zz 778948691969224705 umtn 2 FALSE FALSE <NA> <NA>
6 zz 778942095843135493 flyinsider 0 FALSE FALSE <NA> <NA>
這些是在R包twittR
鳴叫一些鳴叫具有完全相同的text
但不同retweetCount
。我想保留唯一的推文(通過text
),但保留那些與最高retweetCount
重複。 (在上述情況下,推文1,4和5.)
我該怎麼做?
很好的答案。如果你想要的不僅僅是頂級1,還可以使用'arrange'而不是'which.max';如果你想離散分組推薦的最高百分位數,可以使用'arrange'。 – shayaa
@shayaa正確!我腦海中想到的第一個想法是使用'top_n',但即使這樣會返回'xx'中的兩行 –