我已經使用Twitter API for python下載了關於阿姆斯特丹的推文,UTF-8。 現在我想做一個字典LDA,使用此代碼(只是部分的代碼,但是這是導致該錯誤的部分):它總是給我一個錯誤,這取決於Tweet分析,爲LDA製作字典時出現Python錯誤
dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file))
上txt文件,我選擇作爲輸入,無論是:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xf1 in position 2: invalid continuation byte
或
UnicodeDecodeError: 'utf8' codec can't decode byte xxxx in position 175-176: unexpected end of data
我希望這樣做的原因是它是未知的UTF-8 TWEE使用的字符(一些表情符號也許TS)和谷歌搜索之後試圖通過替換代碼:
dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, errors='ignore'))
與錯誤消息:
dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, errors='ignore'))
TypeError: 'errors' is an invalid keyword argument for this function
或
dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, 'ignore'))
與錯誤消息:
dictionary = corpora.Dictionary(line.lower().split() for line in open(input_file, 'ignore'))
ValueError: mode string must begin with one of 'r', 'w', 'a' or 'U', not 'ignore'
有沒有人有辦法解決嗎?謝謝