2013-06-03 58 views
0

我使用RapidMiner和我有一個包含40行,每行具有14個列中的數據組。 線是不同種類的Android應用+和線路的端部的度量有谷歌播放排名(第一行是其中包含度量的名稱的標頭)。如何檢查RapidMiner中的多項式迴歸結果?

(所以我們的目標是預測谷歌播放從指標排名。)

數據集:http://pastebin.com/Cw1BR4K6

  • 列1-13:不同類型的指標
  • 列14:谷歌發揮排名
  • 線2-40:機器人的度量突出

我用PolynomialRegression在RapidMiner我得到了這樣的結果:

- 6.723 * lloc^1.000 
+ 1.187 * nid^2.000 
- 47.730 * nle^1.000 
- 36.433 * nel^1.000 
- 1.466 * nip^2.000 
- 97.187 * activites^1.000 
- 50.080 * inside-permissions^1.000 
- 60.291 * outside-permissions^1.000 
- 52.472 * all-permissions^4.000 
- 2.309 * jtlloc^1.000 
+ 36.058 * jtnm^1.000 
+ 9.924 * jtna^1.000 
+ 40.504 * jtncl^1.000 
+ 9.455 

我的問題: 如何檢查這個結果是正確的? 我如何檢查這個結果到一個已經可用的行? 例如,我想這個結果應用到第25行:25,8,5,10,0,1,0,0,0,239,10,14,4,3.8

我的其他問題: 什麼是我能做到的方法預測這個集? 什麼是最好的方法來做到這一點?如果可能的話,我想請你解釋一下。

在此先感謝,彼得

回答

0

多項式迴歸的結果是一個訓練有素的模型。如果要應用該模型數據集,並查看結果,使用Apply Model操作。它需要兩個輸入:模型和數據。此運算符的輸出是具有一個以上屬性的數據集:迴歸結果。

但是,使用與訓練相同的數據來評估模型的性能是一個非常糟糕的主意(overfitting)。要正確評估模型的性能,分割數據,以訓練集(用於訓練模型)和測試組(用於評估性能)。或者使用實際上相同的交叉驗證,但多次進行平均。 (在Rapidminer中:Edit - > New Building Block - > Numerical X-Validation)

選擇哪種迴歸方法是一個難題,並取決於您的具體需求。你唯一的標準是迴歸錯誤?你需要人類可讀的輸出嗎? 您一定需要嘗試多種方法。我不確定你會用這個小數據集得到一些結論性的結果。

+0

嗨! 所以,第一個是感謝你的答案。我檢查了你的建議。 我得到這樣的輸出: root_mean_squared_error: 0.717 +/- 0.694(MIKRO:1.003 +/- 0.000) squared_error: 0.996 +/- 2.114(MIKRO:1.007 +/- 4。378) 我知道我需要更多的數據,但不幸的是我沒有發現很多頁面提供免費的android應用程序源代碼(除了f-droid.org) – olhptr

+0

您提到:「可讀的輸出」。是的,我想要可讀的輸出。我想找到一些方法,我可以預測哪些指標對Google Play評分影響最大。你的建議是什麼,最適合的方法是什麼? – olhptr