如何在大熊貓

我已經做了一個例子，因爲我的數據集的內容和細節可能是太多/不必要的解釋，提供我的問題使用GROUPBY時，做一個加權和。雖然我的例子可能很愚蠢，但只要知道這個例子確實說明了我希望達到的目標（儘管規模要大得多），並且對於給定的問題非常重要。在這個例子中，假設我們有不同的用戶（用字母表示）。每個用戶共享多個帖子，並且不同的用戶經常共享相同的帖子。然後我們得出一個重要性分數（0或1表示是否重要）和可靠性分數（從1-10的等級）。儘管爲了解決這個問題而如何計算這些指標是完全不相關的，但想象一下重要性可能會分析內容和上下文/當前事件，並且可靠性會考慮到此來源/用戶的先前表現。至於是否有重要性和可靠性之間的關係目前尚不清楚如何在大熊貓

User  Share      Importance   Reliability 

A   Carrots are      0      3 
      good for eyesight 

B   Apple Cider Vinegar    1      4 
      is good for pain 

C   Garlic is good for breadth  0      7 

A   Garlic is good for breadth  1      6 
B   Carrots are good for eyesight 1      9

的數字可能沒有什麼意義 - 道歉無論如何，我希望做一些權重的總和爲每個考慮到文本可靠性和重要性。爲此，我希望找到每個唯一文本（由共享列表示），並對共享該文本的所有用戶的重要性和可靠性分數進行求和。因此，我得到的是這樣的：

A 6 
B 13 
C 0

我很想示例代碼，並建議如何解決這個問題！提前致謝。

來源

2017-06-01 Jane Sully

你可以做一個新的col 「重要性」和「可靠性」之間乘積的乘積。然後你可以通過'user'來'groupby'。 – arnold

你在說你想要的 - 對於用戶共享的一些獨特文本，對每個用戶的重要性和可靠性評分的乘積求和。您的預期結果表似乎並未反映上述說法。相反，它會顯示所有帖子的產品總和，而不是唯一的帖子。國際海事組織，應該在預期的結果表中再增加一列 - 「共享」。 –

非常感謝！ –

第一多個欄由mul然後groupby + sum：

通過如Series柱的groupby優點是沒有臨時列是必要的。

df = pd.DataFrame({'User':['A','B','C','A','B'], 
        'Importance':[0,1,0,1,1], 
        'Reliability':[3,4,7,6,9]}) 
print (df) 
    Importance Reliability User 
0   0   3 A 
1   1   4 B 
2   0   7 C 
3   1   6 A 
4   1   9 B 

df1 = df.Importance.mul(df.Reliability).groupby(df['User']).sum().reset_index(name='col') 
print (df1) 
    User col 
0 A 6 
1 B 13 
2 C 0

來源

2017-06-01 05:53:06 jezrael

非常感謝你！ –

很高興能幫助，祝你好運！ – jezrael

只要做到：

df.groupby('User').apply(lambda g: (g.Importance*g.Reliability).sum())

或者你可以預先創建的產品列，只是總結說：

df['Score'] = df.Importance * df.Reliability 
df.groupby('User').Score.sum()

（這些都假定一個用戶不共享相同的文章超過一次）

來源

2017-06-01 05:51:39 BrenBarn

這是剛從

PROJECT 
------- 
KILL

項目矯枉過正...只是櫃面你沒有得到它。
請不要接受這個答案！這只是我玩得開心。是的，我相信這對其他許多人都有用。不，我不認爲這是必要的。 @ jezrael的答案是你想要的。

一個非常簡單的問題，使用numba爲令人不安的優化

from numba import njit 
import pandas as pd 
import numpy as np 

u = df.User.values 
i = df.Importance.values 
r = df.Reliability.values 
f, q = pd.factorize(u) 

@njit 
def wghtd_sum(i, r, f): 
    o = np.zeros(f.max() + 1, dtype=np.int64) 
    for j in range(r.size): 
     o[f[j]] += r[j] * i[j] 
    return o 

pd.DataFrame(dict(User=q, col=wghtd_sum(i, r, f)))

定時
微小的數據

%%timeit 
u = df.User.values 
i = df.Importance.values 
r = df.Reliability.values 
f, q = pd.factorize(u) 
pd.DataFrame(dict(User=q, col=wghtd_sum(i, r, f))) 
1000 loops, best of 3: 446 µs per loop 

%timeit df.groupby('User').apply(lambda g: (g.Importance*g.Reliability).sum()).reset_index(name='col') 
100 loops, best of 3: 2.51 ms per loop 

%timeit df.Importance.mul(df.Reliability).groupby(df['User']).sum().reset_index(name='col') 
1000 loops, best of 3: 1.19 ms per loop

大數據

from string import ascii_uppercase 

np.random.seed([3,1415]) 
df = pd.DataFrame(dict(
     User=np.random.choice(list(ascii_uppercase), 100000), 
     Importance=np.random.randint(2, size=100000), 
     Reliability=np.random.randint(10, size=100000) 
    )) 

%%timeit 
u = df.User.values 
i = df.Importance.values 
r = df.Reliability.values 
f, q = pd.factorize(u) 
pd.DataFrame(dict(User=q, col=wghtd_sum(i, r, f))) 
100 loops, best of 3: 2.45 ms per loop 

%timeit df.groupby('User').apply(lambda g: (g.Importance*g.Reliability).sum()).reset_index(name='col') 
100 loops, best of 3: 14.1 ms per loop 

%timeit df.Importance.mul(df.Reliability).groupby(df['User']).sum().reset_index(name='col') 
100 loops, best of 3: 4.45 ms per loop

來源

2017-06-01 06:13:15 piRSquared

感謝分享！ –

至於你的問題的措辭去，我想你想爲每一個獨特後的Importance和Reliability產品的總和，且每個獨特用戶。

下面是類似的樣本數據幀到your's-

df = pd.DataFrame({'User':['A','B','C','A','B'],'Share':['Random Post 1','Random post 2','Random Post 3','Random Post 3','Random Post 1'], 'Importance':[0,1,0,1,1],'Reliability':[3,4,7,6,9]}) 
=> 
     Importance Reliability  Share  User 
0   0   3  Random Post 1 A 
1   1   4  Random post 2 B 
2   0   7  Random Post 3 C 
3   1   6  Random Post 3 A 
4   1   9  Random post 1 B

首先得到一個新的列Product -

df['Product'] = df.Importance.mul(df.Reliability) 
=> 
     Importance Reliability  Share  User Product 
0   0   3  Random Post 1 A  0 
1   1   4  Random post 2 B  4 
2   0   7  Random Post 3 C  0 
3   1   6  Random Post 3 A  6 
4   1   9  Random post 1 B  9

現在，只需按Share和User和求和Product，從而獲得所需result-

df.groupby(['Share','User'])['Product'].sum().reset_index(name='Score') 
=> 
    Share  User 
Random Post 1 A  0 
       B  9 
Random Post 3 A  6 
       C  0 
Random post 2 B  4

來源

2017-06-01 07:16:38

感謝您的幫助！ –

如果這解決了你的問題，那麼你可以接受答案:-) –

如何在大熊貓

回答

相關問題