我有一個疑問,在我的會議中我也被問過很多次,我沒有回答它。我希望你能幫助我瞭解這個問題的見解。爲什麼同一組聚類的數據點在Kmeans聚類中遠離或分散?
我已經在我的項目中使用kmeans聚類來聚集各個問題區域的大量文檔。我還使用matplotlib來繪製數據點的座標。更常見的是落在同一個簇中的數據點分散或遠離屬於同一個簇中的其他文檔或數據點。一般人們問我的問題是,如果文檔或數據點來自同一個羣集/組,那麼它們需要彼此靠得更近,爲什麼沒有發生關於同一羣組/羣集的文檔。
我如何說服他們,有時我會無言以對他們說什麼。
除了同樣的問題,我無法控制集羣的形成,但作爲我的領域的專家,我非常清楚文檔屬於哪個領域。那麼,如何使用Kmeans或任何其他集羣機器或通過使用超參數來準確地將這幾千個文檔配置/集羣到這些問題區域。請幫助我。
我從http://brandonrose.org/clustering
父親,紐約起飛參考,哥哥是一個簇的紫色。如果它屬於同一個集羣,那麼它們都需要位於一側靠近彼此的繪圖屏幕上。爲什麼它分散在繪圖屏幕中的任何地方。多數民衆贊成在我的情況也發生了什麼。
以我的經驗,文本上的k-means不太適用。 **永遠不要相信**結果。最多使用它給你一個*想法*有什麼,因爲通常至少有50%的點位於錯誤的聚類中。 –
ok,在這種情況下,什麼算法適合文本。讓我的問題要求更加寬泛。我有成千上萬的文件/問題來自不同的方面,比如bugzilla,socialcast,salesforce等等......我想將這些文檔或PR集成到一個尖銳的問題領域。舉例來說,在JAVA中,人們每天面臨着許多問題,他們會發布他們的問題,我需要把所有這些文檔都集中到特定的問題領域,比如nullpointerexception應該都集中在一個集羣中,並且集合相關的問題應該放在其他集合中簇。什麼阿爾戈套房很好集羣這一點。 –
我懷疑任何聚類都能做到這一點。由於您使用了多個數據源,因此您很可能會看到羣集對應於:bugzilla,socialcast,salesforce。這將是一個成功的集羣,但對你來說毫無用處。 –