我使用RapidMiner和我有一個包含40行,每行具有14個列中的數據組。 線是不同種類的Android應用+和線路的端部的度量有谷歌播放排名(第一行是其中包含度量的名稱的標頭)。如何檢查RapidMiner中的多項式迴歸結果?
(所以我們的目標是預測谷歌播放從指標排名。)
數據集:http://pastebin.com/Cw1BR4K6
- 列1-13:不同類型的指標
- 列14:谷歌發揮排名
- 線2-40:機器人的度量突出
我用PolynomialRegression在RapidMiner我得到了這樣的結果:
- 6.723 * lloc^1.000
+ 1.187 * nid^2.000
- 47.730 * nle^1.000
- 36.433 * nel^1.000
- 1.466 * nip^2.000
- 97.187 * activites^1.000
- 50.080 * inside-permissions^1.000
- 60.291 * outside-permissions^1.000
- 52.472 * all-permissions^4.000
- 2.309 * jtlloc^1.000
+ 36.058 * jtnm^1.000
+ 9.924 * jtna^1.000
+ 40.504 * jtncl^1.000
+ 9.455
我的問題: 如何檢查這個結果是正確的? 我如何檢查這個結果到一個已經可用的行? 例如,我想這個結果應用到第25行:25,8,5,10,0,1,0,0,0,239,10,14,4,3.8
我的其他問題: 什麼是我能做到的方法預測這個集? 什麼是最好的方法來做到這一點?如果可能的話,我想請你解釋一下。
在此先感謝,彼得
嗨! 所以,第一個是感謝你的答案。我檢查了你的建議。 我得到這樣的輸出: root_mean_squared_error: 0.717 +/- 0.694(MIKRO:1.003 +/- 0.000) squared_error: 0.996 +/- 2.114(MIKRO:1.007 +/- 4。378) 我知道我需要更多的數據,但不幸的是我沒有發現很多頁面提供免費的android應用程序源代碼(除了f-droid.org) – olhptr
您提到:「可讀的輸出」。是的,我想要可讀的輸出。我想找到一些方法,我可以預測哪些指標對Google Play評分影響最大。你的建議是什麼,最適合的方法是什麼? – olhptr