我有一個有21列的熊貓數據框。我將重點放在具有完全相同的列數據值的行的子集上,除了每行獨有的6以外。我不知道哪些列標題這6個值對應於先驗。比較熊貓數據幀的行(行有一些重疊的值)
我試着將每一行轉換爲索引對象,並對兩行執行set操作。防爆。
row1 = pd.Index(sample_data[0])
row2 = pd.Index(sample_data[1])
row1 - row2
它返回包含row1唯一值的Index對象。然後我可以手動推斷哪些列具有唯一值。
如何以編程方式獲取這些值在初始數據框中對應的列標題?或者,有沒有辦法比較兩個或多個數據框行並提取每行的6個不同列值以及相應的標題?理想情況下,使用獨特的列生成新的數據框會很好。
特別是,有沒有辦法使用set操作來做到這一點?
謝謝。
因此,有哪些是15合普通一組行,6個不同的行以及其他不遵循此模式的行? [IOW,我們是否必須檢測這個「行子集」或已經完成?] – DSM 2013-05-14 00:56:52
可以發佈幾行樣本行嗎? – Jeff 2013-05-14 02:02:04