我一直在努力嘗試 通過使用我自己的數據集找出列的作者。我應該爲作者預測挖掘哪些算法/概念
我打算使用mlpy python庫。它有很好的文檔, (約100頁pdf)。我也開放給其他圖書館 的建議。
事情是,我迷失在數據挖掘和機器學習 的概念。它有太多的工作,太多的算法和概念。
我在問方向,我應該學什麼算法/概念, 和搜索我的具體問題。
到目前爲止,我已經構建了一個類似這樣的數據集。現在
| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A | 2 | 4 | 6 | .. |
| A | 1 | 1 | 5 | .. |
| B | 12 | 15 | 9 | .. |
| B | 13 | 13 | 13 | .. |
,我會得到一個新的列,並對其進行分析,之後,我將會對列的所有 的功能,我的目的是要弄清楚該列的 作者是誰。
由於我不是ML傢伙,我只能想到在所有行上的 功能之間的距離,並選擇最接近的一個。但我很確定 這不是我應該去的方式。
我會很感激的任何指示,鏈接,朗誦等
謝謝,我會處理它,讓你知道它是如何去。 – 2013-03-20 18:22:41
我認爲你在這裏混合了一些東西。 scikits.ann和scikit-learn完全不相關的項目。 (儘管後者確實有k-NN實現。) – 2013-03-20 18:24:07
糟糕,我澄清了它。謝謝。 – petrichor 2013-03-20 18:26:46