0
我有數據幀,看起來像這樣:採摘使用GROUPBY熊貓隨機元素
revisionId itemId wikidataType
1 307190482 23 Q5
6 305019084 80 Q5
8 303692414 181 Q5
9 306600439 192 Q5
11 294597048 206 Q5
在完全數據幀,則不存在中柱wikidataType 100個這樣不同的值。它是一個很大的數據框,所以我想將它限制爲每個wikidataType 1000條記錄。因此,我用了以下東西:
df = df[df.groupby('wikidataType')['wikidataType'].cumcount() < 1000]
這給出了每個wikidataType的前1000條記錄。我想隨機選擇這1000條記錄。所以,我嘗試使用
df = df[random.sample(list(df.groupby('wikidataType')['wikidataType']), 1000)]
但給了一個錯誤:
TypeError: 'Series' objects are mutable, thus they cannot be hashed
我甚至嘗試
df = df[df.groupby('wikidataType')['wikidataType'].cumcount().random() < 1000]
但也沒有工作。任何人都知道我該怎麼做?
在此先感謝。
我需要1000條記錄中隨機。不是第一個1000. –
@NilakshiNaphade是的,我在添加。請參閱編輯。 –
我可能會需要最後一小部分的東西。但我想要1000分或全部如果大小小於1000. –