加載文件我運行此:的UnicodeDecodeError而在蟒蛇
news_train = load_mlcomp('20news-18828', 'train')
vectorizer = TfidfVectorizer(encoding='latin1')
X_train = vectorizer.fit_transform((open(f, errors='ignore').read()
for f in news_train.filenames))
,但它得到的UnicodeDecodeError:在39位「UTF-8」編解碼器不能解碼字節0xe4:無效延續字節。在open()函數中。
我檢查了news_train.filenames。它是:
array(['/Users/juby/Downloads/mlcomp/379/train/sci.med/12836-58920',
..., '/Users/juby/Downloads/mlcomp/379/train/sci.space/14129-61228'],
dtype='<U74')
路徑看起來正確。這可能是關於dtype或我的環境(我是Mac OSX 10.11),但我嘗試了很多次後無法修復它。謝謝!!!
Python 3?試試'open(f,mode ='rb',errors ='ignore')'。 –
是的,它是Python3.5。我做到了,但我得到了「二進制模式不接受錯誤參數」 – Denly
只要刪除錯誤='忽略'可以做到這一點。或者你自己發佈的答案。 –