2016-09-23 35 views
-1

假設我有一組變量(矢量,它們全部具有相同的長度):X1,X2,X3,X4,X5,X6 ... Xn。和依賴於一些變量X的時間系列Y(具有相同長度N)。在數據集上找到最有意義的變量

我需要一個算法來確定哪些變量的X最有Ÿ相關。即我需要丟棄最不有意義的變量,並獲得最有影響力的變量Y

例子:

比方說,我們要確定是什麼在影響一個特定的IT網站的網絡流量。我們有5個關鍵字:keyword1,keyword2,keyword3,keyword4和keyword5。

比方說,我們對谷歌(鍵1 = X1,鍵2 = X2,KEY3 = X3,KEY4 = X4,KEY5 = X5),總網絡流量Ÿ關鍵字的搜索量。我想確定上述集合(X1,X2,X3,X4或X5)中的關鍵字對網站的總流量有什麼意義。我可以放棄哪些變量以及哪些變量可以提供最多的流量。 (假設所有這些向量和時間序列都是歸一化和標準化的時間序列,範圍從0到100)

+0

如果您認爲大多數變量與輸出Y具有線性關係,您可以執行逐步迴歸http://www.mathworks.com/help/stats/stepwisefit.html以確定在你的模型中包含哪些變量 –

+1

也許你已經知道這一點,但是這種一般類型的問題在機器學習社區中被稱爲*特性選擇*。 [Wikipedia article](https://en.wikipedia.org/wiki/Feature_selection)描述了許多您可以嘗試的不同方法,其中一些方法可以在Matlab的統計和機器學習工具箱中直接使用。像@SomeGuy提到的,逐步線性迴歸就是其中之一。另一個流行的是[套索方法](http://www.mathworks.com/help/stats/lasso.html)。 – khonegger

回答