我修改了本教程(http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html)在路透社語料庫上構建文本分類器。但是,我得到一個不良的輸入形狀錯誤:Scikit文本分類 - 錯誤的輸入形狀錯誤
編輯:感謝@Vivek庫馬爾的幫助,我已經解決了輸入形狀不良的問題。但是,現在我得到一個AttributeError:lower not found。經過一番研究,我認爲這可能與路透社語料庫沒有正確的形式有關。有什麼辦法可以解決這個問題嗎?
這是我的代碼:
from sklearn.datasets import fetch_rcv1 #import reuters corpus
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
rcv1 = fetch_rcv1()
reuters_train = fetch_rcv1(subset='train', shuffle=True, random_state=42)
reuters_train.target_names
count_vect = CountVectorizer()
train_counts = count_vect.fit_transform(reuters_train.data)
train_counts.shape
count_vect.vocabulary_.get(u'alogrithm')
tf_transformer = TfidfTransformer(use_idf=False).fit(train_counts)
train_tf = tf_transformer.transform(train_counts)
train_tf.shape
tfidf_transformer = TfidfTransformer()
train_tfidf = tfidf_transformer.fit_transform(train_counts)
train_tfidf.shape
clf = MultinomialNB().fit(train_tfidf, reuters_train.target)
text_clf = Pipeline([('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', MultinomialNB()),])
text_clf.fit(reuters_train.data, reuters_train.target)
Pipeline(...)
import numpy as np
reuters_testset = fetch_rcv1(subset='test', shuffle=True, random_state=42)
reuters_test = reuters_testset.data
predicted = text_clf.predict(reuters_test)
np.mean(predicted == reuters_test.target)
我在編程和NLP真正的初學者,所以我真的不知道很多的那些東西都左右(還)。 感謝您的任何建議和幫助!
謝謝,這是非常有益的!但是,現在我得到一個AttributeError:找不到?任何想法我能做些什麼? – LittleEntertainer
@LittleEntertainer在相同的代碼?或者你改變了它。請編輯問題並添加詳細信息。還要添加完整的堆棧跟蹤錯誤。 –
@LittleEntertainer嘿,我編輯了我的答案,以適應你正在得到的第二個錯誤。 –