2010-06-17 84 views
3

我很好奇如何爲排序算法做數字正火什麼是最好的方式來標準化分數排名的東西?

比方說,我想根據重要性進行排名的鏈接,我有兩列

工作,使表看起來像

url |評論|意見

現在我想排名高於意見的評論,所以我會首先考慮做的評論* 3或東西來衡量它,但是,如果有一個像40,000大觀點數字,只有4個評論然後評論權重下降出。

所以我想我必須將這些分數歸一化爲更平等的比賽場,然後才能對它們進行加權。任何想法或指示如何通常完成?

感謝

回答

5

每個網址,你可以先正常化的評論和意見,以一個百分點。例如,

comment_percentile = (comments - min(comments))/(max(comments) - min(comments)) 
views_percentile = (views - min(views))/(max(views) - min(views)) 

然後,您可以爲每個百分點值分配權重以計算總體分數。

url_score = (comment_percentile_weight * comment_percentile) + (views_percentile_weight * views_percentile) 

其他策略可能涉及消除異常值,如果值集中在範圍的一端。

+2

我不認爲這是如何百分位的作品,但我可能是錯的 – 2010-06-17 04:42:27

+0

你是正確的d03boy!謝謝你的收穫。希望更新後的文章效果更好。 – btreat 2010-06-17 04:47:21

+0

沿着同樣的路線,您可以將每列標準化爲等於最大值的百分比,或者甚至標準化它們,以便列中的所有項目總和爲1(即,使每一列爲總和的百分比)。 – 2010-06-17 05:08:07

1

重要性實際上是一種通知用戶他對論壇主題或博客位置有多興趣的方式。在這種情況下,你不能只乘以不同因素的兩個數字,並添加:)

你怎麼能說一個博客與2000年的意見和只有一個評論。好吧,也許這是一個垃圾郵件,或者它被網絡爬蟲查看,或者它是如此無聊,以至於沒有人決定對它發表評論。

在這種情況下,我們可能希望查看評論與視圖的比率。我原來的帖子會有一個1/2000的「興趣比例」,而這篇帖子現在有28個視圖和1個評論,它的得分是1/28。

最大比例獲勝。順便說一句,如果你的比率超過一個......那麼,開始尋找錯誤:)

相關問題