如果一個網頁與另一個網頁相同,有哪些技術可以用來檢測?如何確定兩個網頁是否相同?
通過同樣的,我的意思並不是焦炭換字符等效(這很容易),但強大到足以忽略類似網頁上的當前日期/時間等
例如,走了雅虎新聞文章加載頁面,10分鐘後在另一個瀏覽器中打開相同的頁面。巴林重寫,這些網頁會有一些差異(時間戳,可能是像廣告,可能像相關的故事),但一個人可以看看這兩個,並說他們是一樣的。
注意我沒有試圖修復(或依靠)URL規範化。即,弄清楚foo.html & foo.html?bar = bang是一樣的。
到底發生了什麼? – RJHunter 2009-02-01 09:45:53