我希望顯示的文本文檔的相似性我使用這scikit學習的TfidfVectorizer爲tfidf = TfidfVectorizer(decode_error='ignore', max_df=3).fit_transform(data)
使用相似矩陣,而不是在相似矩陣爲MDS scikit學習
,然後進行餘弦相似度計算作爲cosine_similarity = (tfidf*tfidf.T).toarray()
它給出了相似性,但sklearn.manifold.MDS
需要一個不相似矩陣。當我給出1-cosine_similarity時,應該爲零的對角線值不是零。它們是一些小的值,如1.12e-9
等。兩個問題:
1)如何使用MDS相似度矩陣或如何將相似度矩陣更改爲相異矩陣?
2)在MDS中,有一個選項dissimilarity
,其值可以是'precomputed'
或'euclidean'
。兩者之間有什麼區別,因爲當我給歐幾里德,MDS座標變得相同,無論我使用的是cosine_similarity還是1-cosine_similarity看起來都是錯誤的。
謝謝!