2015-10-06 53 views
-3

我想查找模式並從大量調查數據中提取有用的信息。數據在.xlsx電子表格中進行排序,其中4列與特定問題相對應,每行填充回覆者的文本答覆。從調查文本中查找模式和實用信息[xlsx]

如何使用python和openpyxl從數據中提取模式,例如單詞或短語的頻率,四個問題的答案之間的連接或其他任何我應該查找的內容?

我在數據/文本挖掘方面的經驗有限,所以如果有一些文檔,有用的教程或其他StackOverflow問題,我應該看看,請讓我知道。我在這裏和其他地方做了大量的搜索,但沒有找到我要找的東西。

到目前爲止,我已根據調查問題對詞頻進行了調查,但事實證明很難瀏覽openpyxl文檔來做類似的事情。有沒有一種簡單的方法來在python中做到這一點?

樣本陣列[600x4]:

[['this is an example of an answer to question 1 by respondent 1', 'answer to Q2 by R1', 'ans to Q3 by R1', 'ans to Q4 by R1'] 
    ['ans to Q1 by R2', 'ans to Q2 by R2', 'ans to Q3 by R2', 'ans to Q4 by R2'] 
    [etc, etc, etc, etc...]] 
+0

您可以嘗試將文件另存爲csv,然後使用csv程序包進行處理。與這個管道相比,我有更好的運氣,而不是直接使用excel文件。 – cr1msonB1ade

回答

1

Excel文件格式不特別適合於這樣的任務。如果將文件中的數據複製到更適合該任務的工具中,例如使用全文搜索的關係數據庫或專用文本引擎,則可以做得更好。

openpyxl是爲操縱Excel文件而設計的庫。因此,在這種情況下,它可以幫助您提取數據並將其傳遞給其他應用程序。