我正在學習多標籤分類並嘗試從scikit學習實現tfidf教程。 我正在處理一個文本語料庫來計算其tf-idf分數。 我使用模塊sklearn.feature_extraction.text爲目的。使用CountVectorizer和TfidfTransformer我現在已經爲每個詞彙表使用了我的語料庫vectorised和tfidf。 的問題是,我有一個稀疏矩陣現在,像:將scipy.sparse.csr.csr_matrix轉換爲列表清單
(0, 47) 0.104275891915
(0, 383) 0.084129133023
.
.
.
.
(4, 308) 0.0285015996586
(4, 199) 0.0285015996586
我想這個sparse.csr.csr_matrix轉換成一個列表的列表,這樣我可以從上面去掉文檔ID csr_matrix並獲得TFIDF和vocabularyId對像
47:0.104275891915 383:0.084129133023
.
.
.
.
308:0.0285015996586
199:0.0285015996586
有什麼辦法轉換成一個列表的列表或者,我可以改變來獲得TFIDF-vocabularyId對格式的任何其他方式?
謝謝。 正是我所需要的。 – Saurabh
我想強調詞典理解'{k:v for k,v in zip(Mc.col,Mc.data)}''。這是保持數據稀疏的一種極好的方式,同時還具有人類可讀的標籤。 – ClimbsRocks
這很好。但所有的零都從tfidf矩陣中消失。所以他們現在都會有不同的維度 – Isbister