在數據集上找到最有意義的變量

-1

假設我有一組變量（矢量，它們全部具有相同的長度）：X1，X2，X3，X4，X5，X6 ... Xn。和依賴於一些變量X的時間系列Y（具有相同長度N）。在數據集上找到最有意義的變量

我需要一個算法來確定哪些變量的X最有Ÿ相關。即我需要丟棄最不有意義的變量，並獲得最有影響力的變量Y。

例子：

比方說，我們要確定是什麼在影響一個特定的IT網站的網絡流量。我們有5個關鍵字：keyword1，keyword2，keyword3，keyword4和keyword5。

比方說，我們對谷歌（鍵1 = X1，鍵2 = X2，KEY3 = X3，KEY4 = X4，KEY5 = X5），總網絡流量Ÿ關鍵字的搜索量。我想確定上述集合（X1，X2，X3，X4或X5）中的關鍵字對網站的總流量有什麼意義。我可以放棄哪些變量以及哪些變量可以提供最多的流量。（假設所有這些向量和時間序列都是歸一化和標準化的時間序列，範圍從0到100）

來源

2016-09-23 Luis Cruz

如果您認爲大多數變量與輸出Y具有線性關係，您可以執行逐步迴歸http://www.mathworks.com/help/stats/stepwisefit.html以確定在你的模型中包含哪些變量 –

也許你已經知道這一點，但是這種一般類型的問題在機器學習社區中被稱爲*特性選擇*。 [Wikipedia article]（https://en.wikipedia.org/wiki/Feature_selection）描述了許多您可以嘗試的不同方法，其中一些方法可以在Matlab的統計和機器學習工具箱中直接使用。像@SomeGuy提到的，逐步線性迴歸就是其中之一。另一個流行的是[套索方法]（http://www.mathworks.com/help/stats/lasso.html）。 – khonegger

一種方法是使用特徵選擇svm。

我已經使用Feature Generation Machine成功完成了這項工作。請檢查以下鏈接：http://www.tanmingkui.com/fgm.html

來源

2016-09-23 15:03:06 TyanTowers

在數據集上找到最有意義的變量

回答

相關問題