我開始對某些csv文檔進行一些文本分析。然而,我的csv文檔有幾個句子,幾乎沒有什麼詞讓我感興趣,所以我想創建一個python代碼來分析這個csv文檔,只留下包含5個以上單詞的句子供我分析,但是我不知道在哪裏開始做我的代碼,並希望得到一些幫助。在csv文檔中處理文本
例如:
輸入文檔 enter image description here
輸出文檔 enter image description here
我開始對某些csv文檔進行一些文本分析。然而,我的csv文檔有幾個句子,幾乎沒有什麼詞讓我感興趣,所以我想創建一個python代碼來分析這個csv文檔,只留下包含5個以上單詞的句子供我分析,但是我不知道在哪裏開始做我的代碼,並希望得到一些幫助。在csv文檔中處理文本
例如:
輸入文檔 enter image description here
輸出文檔 enter image description here
這應該工作(與Python 3.5):
lines = []
finalLines = []
toRemove = ['a', 'in', 'the']
with open('export.csv') as f:
lines.append(f.readlines())
for line in lines:
temp = list(csv.reader(line))
sentence = ''
for word in temp[0][0].split():
if (word not in toRemove):
sentence = sentence + ' ' + word
finalLines.append(sentence.strip())
print(finalLines)
您可以讓您的工作有效地和如果你使用熊貓(python庫廣泛用於數據操作)。這裏是鏈接官方大熊貓文檔:
http://pandas.pydata.org/pandas-docs/stable/
注:熊貓有內置的函數來讀取的CSV文件。你可以使用'skiprow'參數來忽略你不想要的或應用regex來過濾文本。
Google for「python csv tutorial」 - 您將瞭解到'csv'模塊以及如何將csv文件的內容加載到您的程序中。一旦完成,那麼你將能夠過濾掉那些不符合你設置的標準的行。 – PaulMcG
也許首先舉一個輸入數據的例子和你想得到的輸出。 – jberrio