Python的大熊貓 - 如果某些值爲空行合併

我有一個數據集，看起來有點像這樣：Python的大熊貓 - 如果某些值爲空行合併

ID Name   Address  Zip Cost 
1 Bob the Builder 123 Main St 12345 
1 Bob the Builder      $99,999.99 
2 Bob the Builder 123 Sub St 54321 $74,483.01 
3 Nigerian Prince Area 51  33333 $999,999.99 
3 Pinhead Larry Las Vegas 31333 $11.00 
4 Fox Mulder  Area 51    $0.99

，其中丟失的數據是正常的，除非很明顯，他們可以合併。我的意思是，而不是上面的數據集，我想合併ID和名稱都相同的行，其他功能可以填充對方的空白。例如，上面的數據集將成爲：

ID Name   Address  Zip Cost 
1 Bob the Builder 123 Main St 12345 $99,999.99 
2 Bob the Builder 123 Sub St 54321 $74,483.01 
3 Nigerian Prince Area 51  33333 $999,999.99 
3 Pinhead Larry Las Vegas 31333 $11.00 
4 Fox Mulder  Area 51    $0.99

我已經想過使用df.groupby(["ID", "Name"])然後連接字符串，因爲缺失值是空字符串，但沒有得到運氣吧。

數據已被刮掉網站，所以他們不得不經過大量清理才能到達此處。我想不出一個解決這個問題的優雅方法！

來源

2016-11-22 kug3lblitz

我將描述一個算法：

拋開所有字段填充的所有行。我們不需要碰這些。
創建一個布爾型DataFrame，如空字段爲False且填充字段爲True時的輸入。這是df.notnull()。
對於每名df.Name.unique()：
1. 以df[df.Name == name]作爲工作集。
2. 對布爾行的每對（或元組）進行求和，生成一個布爾向量與輸入列相同的寬度，除了那些總是填充的布爾向量。在這個例子中，這意味着[True, True, False]和[False, False, True]，所以總和是[1, 1, 1]。
3. 如果總和等於1，則該行（或元組）行可以合併。

但也有一噸的可能的邊緣案件在這裏，比如，如果你有三排A，B，C，你可以合併是A + B或A + C做什麼。如果您可以在實施合併算法之前縮小數據中存在的約束條件，這將有所幫助。

來源

2016-11-22 03:56:35

謝謝你的最後一排了很多！當我在數據框上做一個groupby（）時，我注意到了這種模式，但並不知道如何處理它。我應該澄清一些限制因素 - 邊緣案例已經被處理了，所以它只有兩行重複的設置。 – kug3lblitz

這隻適用於我們可能合併的行彼此相鄰。

設置

df = pd.DataFrame(dict(
     ID=[1, 1, 2, 3, 3, 4], 
     Name=['Bob the Builder'] * 3 + ['Nigerian Prince', 'Pinhead Larry', 'Fox Mulder'], 
     Address=['123 Main St', '', '123 Sub St', 'Area 51', 'Las Vegas', 'Area 51'], 
     Zip=['12345', '', '54321', '33333', '31333', ''], 
     Cost=['', '$99,999.99', '$74,483.01', '$999.999.99', '$11.00', '$0.99'] 
    ))[['ID', 'Name', 'Address', 'Zip', 'Cost']]

填補缺失
replace('', np.nan)再往前填補然後回填土

df_ = df.replace('', np.nan).ffill().bfill()

孔卡牛逼
採取填補了df_如果重複行
採取非填充df如果不重複

pd.concat([ 
     df_[df_.duplicated()], 
     df.loc[df_.drop_duplicates(keep=False).index] 
    ])

來源

2016-11-22 06:03:37 piRSquared

Python的大熊貓 - 如果某些值爲空行合併

回答

相關問題