2017-06-12 79 views
-1

我開始對某些csv文檔進行一些文本分析。然而,我的csv文檔有幾個句子,幾乎沒有什麼詞讓我感興趣,所以我想創建一個python代碼來分析這個csv文檔,只留下包含5個以上單詞的句子供我分析,但是我不知道在哪裏開始做我的代碼,並希望得到一些幫助。在csv文檔中處理文本

例如:

輸入文檔 enter image description here

輸出文檔 enter image description here

+0

Google for「python csv tutorial」 - 您將瞭解到'csv'模塊以及如何將csv文件的內容加載到您的程序中。一旦完成,那麼你將能夠過濾掉那些不符合你設置的標準的行。 – PaulMcG

+0

也許首先舉一個輸入數據的例子和你想得到的輸出。 – jberrio

回答

2

這應該工作(與Python 3.5):

lines = [] 
finalLines = [] 
toRemove = ['a', 'in', 'the'] 

with open('export.csv') as f: 
    lines.append(f.readlines()) 

for line in lines: 
    temp = list(csv.reader(line)) 
    sentence = '' 
    for word in temp[0][0].split(): 
     if (word not in toRemove): 
      sentence = sentence + ' ' + word 
    finalLines.append(sentence.strip()) 

print(finalLines) 
1

您可以讓您的工作有效地和如果你使用熊貓(python庫廣泛用於數據操作)。這裏是鏈接官方大熊貓文檔:

http://pandas.pydata.org/pandas-docs/stable/

注:熊貓有內置的函數來讀取的CSV文件。你可以使用'skiprow'參數來忽略你不想要的或應用regex來過濾文本。