-1

是否存在一些常用的強大的數據分析技術,這些技術常見且適用於各種情況下的各種數據?最好的數據庫/分類技術

例如,我需要對新數據進行分類。我已經有了它的分類。我需要嘗試(我的想法示例如下):

  1. 嘗試應用PCA,然後RandomForestDecisions;
  2. 經由方法X(使用LIB甲)找到最顯著列,然後應用Kohonen神經網絡使用這種方式所有數據;
  3. 嘗試SVM馬爾可夫CHAINES(參見這個例子在R,和在數學,並提高結果與該結果K最近方法;
  4. 使用本工具包找到數據異常,並嘗試通常反推NN(如這裏)或recvent神經網絡喜歡這裏;
  5. 結合遺傳算法(像)上線性分類器(我的意思)。

例如,我瞭解到xgboost *算法贏得了很多機器學習任務和比賽。

我覺得像宇航員/宇航員潛水Infinity在當前的數據挖掘工具和算法的數量和搜索正確,但也強大的方法來可行的結果。感謝任何ML原理的結構視覺與鏈接)

回答

1

你問這些是否有效的監督學習技術?如果是這樣,是的,你可以嘗試所有這五個,看看哪一個給你最好的結果。使用哪種方法確實取決於您的應用程序。

PCA降低了您的數據維數/功能數量。這通常是無監督學習方法(如最近鄰居(特徵臉等))的預處理步驟,但實際上可以與隨機森林或其他決策樹/裝袋方法一起使用,以使您的代碼更快地運行並減少方差。

SVM(http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html),QDA,LDA,邏輯迴歸(可能帶有內核)是您可以嘗試的許多方法之一。

爲了使事情簡單化,您還可以嘗試訓練帶有一個隱藏層的神經網絡,然後看看結果如何。如果你的輸出層不是太大(〜10),選擇一個合理的隱藏層大小(〜200),並有一個相對較大的輸入層大小(約60000),這樣一個網絡的基本實現可以給你一個分類的準確性約97%。

但是,這又取決於你想要做什麼。