我想找到最佳的方式來將具有類似ID的'行'分組。最快的方法,以一個非常大的numpy陣列的ID分組
我最好的猜測: np.array([test[test[:,0] == ID] for ID in List_IDs])
結果:陣列
的數組的數組[ array([['ID_1', 'col1','col2',...,'coln'],
['ID_1', 'col1','col2',...,'coln'],...,
['ID_1', 'col1','col2',...,'coln']],dtype='|S32')
array([['ID_2', 'col1','col2',...,'coln'],
['ID_2', 'col1','col2',...,'coln'],...,
['ID_2', 'col1','col2',...,'coln']],dtype='|S32')
....
array([['ID_k', 'col1','col2',...,'coln'],
['ID_k', 'col1','col2',...,'coln'],...,
['ID_K', 'col1','col2',...,'coln']],dtype='|S32')]
任何人都可以提出一些可以更有效率?
提醒:test
陣列是巨大的。 '行'沒有訂購
有你看着'pandas',這有專門爲這個 – EdChum
「龐大」的是'groupby'方法一個相對術語。你可以再詳細一點嗎?一百萬行?一億? –
@WarrenWeckesser我現在正在與30萬。更多預計的數據 – belas