蟒蛇符號化的UnicodeDecodeError

python
nlp

2016-05-18 76 views 2 likes

我試圖來標記一些文件，但我有這個錯誤蟒蛇符號化的UnicodeDecodeError

UnicodeDecodeError: 'ascii' codec can't decode byte 0xef in position 6: ordinal not in range(128)

import nltk 
import pandas as pd 

df = pd.DataFrame(pd.read_csv('status2.csv')) 
documents = df['status'] 

result = [nltk.word_tokenize(sent) for sent in documents]

我認爲這是unicode的問題，所以我說

documents = unicode(documents, 'utf-8')

另一個錯誤

TypeError: coercing to Unicode: need string or buffer, Series found

print documents 

1  Brandon Cachia ,All I know is that,you're so n... 
2  Melissa Zejtunija:HAM AND CHEESE BIEX INI??? *... 
3       .........Where is my mind????? 
4  Having a philosophical discussion with Trudy D...

來源

2016-05-18 Lucia

回答

unicode對字符串或字節進行操作，但documents是一個熊貓系列。

可能：

result = [nltk.word_tokenize(unicode(sent, 'utf-8')) for sent in documents]

來源

2016-05-18 05:11:53 Neapolitan

相關問題

1. 蟒蛇輸入的UnicodeDecodeError：
2. 的UnicodeDecodeError而在蟒蛇
3. 蟒蛇，編解碼器，file.writelines（）的UnicodeDecodeError
4. 號蟒蛇
5. 簡化蟒蛇
6. 蟒蛇，熊貓，SQLAlchemy的 - 符號查詢
7. 蟒蛇寫變音符號到文件
8. 蟒蛇支架符號來setitem方法
9. 雙引號字符串蟒蛇
10. 變化值 - 蟒蛇
11. 初始化蟒蛇
12. 轉化的URL，蟒蛇
13. 蟒蛇：字符串
14. 移調號碼錶蟒蛇
15. 蟒蛇嵌套括號
16. 不平衡括號蟒蛇
17. 星號蟒蛇AGI問題
18. 格式化時間蟒蛇
19. 簡化這個蟒蛇代
20. 轉化dijkstras到*蟒蛇
21. 簡化if語句蟒蛇
22. 蟒蛇np.array值變化
23. 無法在蟒蛇蟒蛇
24. 分割字符串，引號內忽略分隔符（蟒蛇）
25. 用星號繪製的字母蟒蛇
26. 獲得不匹配的行號蟒蛇
27. 字符映射表，蟒蛇
28. 蟒蛇從字符串
29. 導入字符串 - 蟒蛇
30. 蟒蛇：清理字符串