2012-02-22 229 views
1

我正在試驗一些電影評級數據。目前正在做一些混合項目和基於用戶的預測。在數學上,我不確定如何實現我想要的,也許答案只是直截了當的權重,但我覺得可能有其他選擇。加權平均值趨於中心

我有4個值,現在,我想基於

  1. 項目預測的平均
  2. 基於用戶的預測
  3. 全球電影平均爲給定項目
  4. 全球用戶平均給定用戶

由於這個progesses我會需要添加其他值,如加權simil arity,流派權重和我相信其他一些事情。

現在我想集中討論如上所述的可用數據,以便理解爲其他任何內容。

這是我的理論。要開始,我想要權衡項目和基於用戶的預測,這將比全球平均值更重。

雖然我覺得我的生鏽的數學和一些基本的嘗試提出一個不太線性的解決方案是使用像諧波的意思。但並非天然地傾向於低平均值傾向於全球平均值。

預測項目基地評級4.5

預測基於用戶評價2.5

全球電影分級3.8

全球用戶評分3.6

因此「中心「/全球平均在這裏將是3.7

我可能會離開基地,因爲我的數學是相當生疏,但任何想法如何我可以用數學表示我在想什麼?

OR

你有不同的做法

+0

netflix獎由「分層」SVD算法贏得。 – wildplasser 2012-02-23 00:03:13

+0

事實上,在那個時候我有點不在。爲了學習的目的,我正在嘗試這條路線,看看我能夠走多遠。我看了SVD,但還不確定我可能會如何實現它。 – 2012-02-23 00:14:04

回答

1

我建議你尋找到「推薦系統手冊」由F.利瑪竇等人有任何想法,2011年它總結了所有常見的方法推薦引擎並提供所有必要的公式。
下面是從4.2.3的摘錄:

作爲在預測的增加使用鄰居的數目,由迴歸方法預測會向均值評價項目i的傾向的評價。假設項目i只在評分範圍的任何一端都有評分,即被愛或恨,那麼迴歸方法會作出安全的決定,即該項目的價值是平均值。 [...]另一方面,分類方法將預測評級爲最常見的給予我。由於該商品將被標記爲「好」或「壞」,因此這樣做更具風險。