2014-09-21 123 views
4

我目前正在研究時間系列女巫430屬性和約。 80k實例。現在我想對每個實例進行二進制分類(而不是整個ts)。我發現的關於對TS進行分類的一切都是關於標記整個事情的。 是否有可能用SVM之類的東西來分類每個實例,完全忽略數據的順序特性,還是隻會導致一個非常糟糕的分類器? 還有哪些其他選項可以將每個實例分類,但仍將數據視爲時間序列?分類多變量時間序列

+0

正在爲您的數據要求其他分類器...... – Devavrata 2014-09-21 12:57:11

回答

0

它當然取決於430屬性中的數據, 數據類型和特別是你想解決的問題

在時間序列分析中,您通常要利用相鄰點之間的依賴關係,即它們如何隨時間變化。你可能會在書中找到的例子通常談論一個功能​​。如果我理解正確,那麼您只需關注430個屬性之間的依賴關係(垂直依賴關係)並忽略水平依賴關係。如果我是你,我會首先嚐試訓練多個分類器(支持向量機,最大熵模型,多層感知器,隨機森林,概率神經網絡......),並比較他們在你的框架中的預測性能問題。

對於培訓,您可以開始將所有430個屬性作爲特徵提供給Maxent分類器(可以輕鬆處理數百萬個特徵)。 您還需要執行一些N-fold交叉驗證以查看分類器是否過度配置。然後選擇最好的解決您的問題「夠好」。

如果這種方法不能很好地執行其他的想法:

  • 包括T-1,T-2功能...
  • 通過嘗試不同特徵的子集進行特徵選擇
  • 派生出新時間序列,如移動平均,小波頻譜......並將它們用作新特徵

Maxent分類器的一個很好的實現可以在openNLP中找到。

2

如果數據被標記了,你可能會把運算連在一起,所以每個實例變成一個單獨的長時間序列,並且通過應用所謂的Shapelet Transform。這將導致每個時間序列的值可以輸入到SVM,隨機森林或任何其他分類器中。這可能是因爲選擇正確的shapelets將允許您在分類實例時專注於單個屬性。

如果沒有標記,您可以先試用unsupervised shapelets應用程序來探索您的數據,然後繼續上述shapelet轉換。

+0

感謝您對shapelet轉換紙的鏈接。 – 2016-05-02 14:53:44

+0

@seninp我只是偶然發現了你的答案。出於好奇,你認爲可以將shapelet變換應用於面板/橫截面時間序列數據嗎?在文獻中,我通常只看到它適用於實際價值的時間序列。 – Pylander 2016-09-13 20:19:02