2011-09-21 45 views
4

我正在尋找一種算法,它可以做某種頁面排名,但隨着頁面變老,頁面的價值會變小。到期頁排名算法

我見過的所有算法都做了相反的操作(給舊的域名更多的價值)。

幫助找到這樣的算法將非常感謝。

編輯: 看看我最初的問題,我想我有點不清楚自己在問什麼,問題比我原先想象的更復雜。 基本上我想要的是某種排名算法,如果網站B在網站B發佈帖子後立即鏈接到網站B,則網站B的頁面會獲得額外的網頁排名(也許分數是更好的詞),但是如果網站A已經在帖子發佈後很長一段時間與B站點鏈接,這對網頁排名幾乎沒有影響。

希望這是有道理的。對最初的問題抱歉是錯誤的。

+0

最好呈現算法,你嘗試它,但你不能從最早的日期改變它到最新的日期。 –

+0

@SaeedAmiri:OP明確提及他使用的算法:pagerank。這個問題很明顯,熟悉這種算法的人都很熟悉。 – amit

+0

@amit,我知道pagerank但它有一些變化,OP沒有提到他爲什麼不能使用它(有一個小的變化)來使用最新的帖子。 –

回答

5

您可以使用有偏序的頁面排名,如Haveliwala在此article中所述。

這個想法很簡單,而不是使用一個普通的隨機組件:[1/n,1/n,....,1/n],使用一個有偏向的隨機組件,當你隨機行走時,而不是以概率1/n進入每個頁面,概率f(doc),其中f(DOC)是較新的頁面較高,Sigma(f(doc)) = 1 [集合中的所有文檔,讓您的隨機成分會[f(doc1),f(doc2),...,f(docn)]

請注意,每個文件必須是f(doc)>0,否則銜接不保證[Perron-Frobenius定理不適用]。


另一種可能性是計算定期網頁排名,和相乘它與一個不同的功能g:Collection->R給出一個數值,以各頁面,並且頁面是較新的,得分越高爲此文檔。

編輯:
作爲響應原來的問題的編輯:
另一種可能性是生成用於所述紙幅的曲線圖的情況下,添加額外的信息w:E->[0,1],意思是:添加的權重函數對於每個邊緣,dentoing多麼重要是,如果鏈接是在原始編輯後不久創建的,則w(e)將接近1,並且如果它晚得多,分數將更接近於0.

創建矩陣時,計算pagerank on ,把Matrix[v1][v2] <- w((v1,v2)),而不是一個簡單的二進制值表示邊緣存在於圖表中。
一旦你有這個矩陣,一般計算PageRank。

+0

對不起,我現在正在閱讀論文並試圖理解它,這與新編輯的問題仍然相關嗎? – user956400

+0

@ user956400:看看我的編輯:我認爲這可能更適合您編輯的問題。 – amit

+0

這聽起來更容易沒有真正意識到頁面排名可用於非二進制數據。 – user956400