基於CSV文件刪除DF行（Pandas，Python3）

現在，我試圖創建一個函數，該函數根據excel文件中列出的某些標準刪除行。這個Excel文件（壞words2）包含應該從DF中被刪除的字對，是這樣的：基於CSV文件刪除DF行（Pandas，Python3）

header 
the man 
is a

我的代碼的第二部分是我想申請

import pandas as pd 
data = ({'words':['the man','is a','good guy']}) 
df = pd.DataFrame(data) 

xl = pd.ExcelFile('C:/Users/j/Desktop/bad words2.xlsx') 
badwords = xl.parse() 
badwords = badwords['header'] 

def removewords(x): 
    for w in x: 
     pattern = '^'+''.join('(?=.*{})'.format(word) for word in w.split()) 
     df[df['words'].str.contains(pattern)==False] 
     df.dropna() 


print(removewords(badwords))

功能所以，理想情況下，在使用該功能的目的，我應該結束了，只包含DF：

words 
good guy

然而，現在，所有的這個函數返回的是「無」。我究竟做錯了什麼？

來源

2014-09-30 user3682157

對不起你只是想過濾掉所有的圖案文字或過濾掉不在模式的話呢？無論如何不清楚你在做什麼，但是這行不做任何事情，沒有賦值：'df [df ['words']。str.contains（pattern）== False]'應該是'df = df [df ['words' ] .str.contains（模式）==假]' – EdChum 2014-09-30 20:04:31

的幾點思考：

最後兩個操作返回一個新的數據幀。即他們不會在原地修改DataFrame。您需要將這些操作的結果分配給某些內容，例如df。
然後，如果您執行上述操作，變量df不可用於該功能範圍內的分配。你可以將它作爲參數傳遞。（請注意：這不是你的代碼的問題，而是建議的解決方案。）或者，你可以在函數中實例化一個新的DataFrame。
您在函數結束時沒有返回DataFrame。

嘗試，而不是：

def removewords(df,x): 
    for w in x: 
     pattern = '^'+''.join('(?=.*{})'.format(word) for word in w.split()) 
     df = df[df['words'].str.contains(pattern)==False] 
     df = df.dropna() 
    return df 

print(removewords(df,badwords))

來源

2014-09-30 18:43:54 bernie

嗨伯尼感謝您的輸入。但是，當我嘗試將任何類型的變量分配給df（即df =）時，出現錯誤UnboundLocalError：分配之前引用的局部變量'df' – user3682157 2014-09-30 18:47:54

啊是的。請參閱編輯的答案。 – bernie 2014-09-30 18:51:14

所以問題解決了，第二個問題就出現了 - 所做的更改不會在for循環中「堆棧」。所以使用上面的代碼，返回結果是「是個好人」。我希望刪除出現在我的excel文件中的所有單詞對，以便我的最終返回結果是JUST'Good Guy' – user3682157 2014-09-30 18:56:30

基於CSV文件刪除DF行（Pandas，Python3）

回答

相關問題