我在嘗試使用scikit-learn
將一些文本文檔聚類在一起。我試用了DBSCAN和MeanShift,並想要確定哪些超參數(例如針對MeanShift的bandwidth
和針對DBSCAN的eps
)針對我正在使用的數據類型(新聞文章)的最佳工作方式。GridSearchCV如何用於聚類(MeanShift或DBSCAN)?
我有一些測試數據,其中包含預先標記的簇。我一直在嘗試使用scikit-learn
的GridSearchCV
,但不明白在這種情況下應該如何(或者是否可以)應用,因爲它需要分割測試數據,但是我想對整個數據集運行評估,並且將結果與預先標記的數據進行比較。
我一直在試圖指定一個計分函數,它將估計器的標籤與真實標籤進行比較,但它當然不起作用,因爲只有數據樣本被聚集,而不是全部。
這裏有什麼合適的方法?
是的,我正在自己實施它的過程中。我只是想知道'scikit-learn'是否支持這個開箱即用的功能,並且我忽略了一些東西。 我的計劃是對幾個不同的預先標記的數據集進行網格搜索,並深入瞭解您指出的潛在問題 - 感謝您指出風險! – frnsys 2014-09-03 12:03:13
'sklearn.cross_validation'有各種迭代器,可以產生數據集的分割(交叉驗證,隨機分割等)。這些應該使這個循環很容易編寫。 – 2014-09-03 16:35:59