情感分析中的一項常見任務是獲取熊貓數據框單元格內的單詞數量,並根據該數量創建一個新列。我該怎麼做呢?如何計算熊貓數據框單元格中的單詞總數並將它們添加到新列中?
回答
比方說,你有你已經使用
df = pandas.read_csv('dataset.csv')
生成的數據幀DF你會然後通過執行以下操作字計數添加新列:
df['new_column'] = df.columnToCount.apply(lambda x: len(str(x).split(' ')))
記住分裂的空間很重要,因爲你正在分裂新詞。在執行此操作之前,您可能需要刪除標點符號或數字並將其縮小爲小寫。
df = df.apply(lambda x: x.astype(str).str.lower())
df = df.replace('\d+', '', regex = True)
df = df.replace('[^\w\s\+]', '', regex = True)
from collections import Counter
df['new_column'] = df['count_column'].apply(lambda x: Counter(" ".join(x).split(" ")).items())
這需要您將'count_column'中的每個文本單元格分割成單詞列表。 (如果'count_column'中的每個單元格都包含一個單獨的字符串,則這會計算字符數。)另外,如果我錯過了某些顯而易見的內容,對不起,爲什麼'Counter(''.join(x).split(''))'? 'Counter(x)'沒有達到相同的結果嗎? **編輯:**加入然後拆分的一個原因是爲了確保您分解列表中包含多個空格分隔的單詞的任何字符串。 –
@PeterLeimbigler如果按空格分割,你會如何計算字符? –
在字符串上運行'''.join(a_string_variable)'會在字符串中的每個字符之間插入一個空格。 –
- 1. 將計算列添加到熊貓數據框中
- 2. 計算熊貓數據框中的單個詞
- 3. 將計算列添加到熊貓數據透視表中
- 4. 將熊貓數據框添加到列
- 5. 將行和列總和應用於熊貓數據框中的單元格
- 6. 如何在熊貓數據框中按單詞分組統計
- 7. 從單列熊貓數據框中生成單詞雲
- 8. 不計算大熊貓數據框中所有列的總和
- 9. 熊貓數據框中添加列GROUPBY
- 10. Xlsxwriter合併單元格 - 格式化熊貓數據框
- 11. 從Excel分析單個單元格到數據框熊貓
- 12. 將計算列分組並添加到我的數據框中
- 13. 將列添加到Shiny中的反應數據框中並更新它們
- 14. 熊貓:搜索並將值添加到多列單元
- 15. 將列表添加到熊貓空數據框中
- 16. 將熊貓系列添加到數據框中,保留索引
- 17. 熊貓:如何計算每一行中各個單詞的數據幀
- 18. 計算數組中的元素並將它們添加到對象中
- 19. 將數據填充到熊貓數據框中的單個列中
- 20. 將羣組總數添加到熊貓數據框中的最佳方法
- 21. 如何將單個數據添加到單個單元格?
- 22. 熊貓,按計數分組,並添加到原始數據框的計數?
- 23. 在熊貓中添加計算列
- 24. Python:創建空熊貓數據框並動態添加元素到列中
- 25. 將同名鍵詞典加入到熊貓數據框中
- 26. C#從數據庫中加載單詞並將它們添加到「選擇」類型的列表中?
- 27. 大熊貓數據框中添加一個新的列和fillna
- 28. 將熊貓數據框值寫入特定表格中的特定單元格。
- 29. 使用熊貓,添加timedelta到主數據框中的新行?
- 30. 計算字符串中的數字並將它們添加到數組中
爲什麼不使用NLTK字標記生成器? – Dark
這是一個選項。 – muninn