2009-09-29 80 views
0

我只想知道你如何指紋/驗證html /鏈接結構的意見。指紋和驗證html結構的最佳方法

我想解決的問題是:指紋例如10個不同的網站,html頁面。 經過一段時間我想有可能驗證它們,如果網站已更改,鏈接已更改,驗證失敗,其他驗證成功。我的基本想法是通過以某種方式分解鏈接結構來分析鏈接結構,做某種樹,並從該樹生成某種代碼。但我仍然處於頭腦風暴階段,我需要與某人討論這個問題,並瞭解其他想法。

所以任何想法,算法和建議都將是有用的。

+0

您能否更具體地說明您想要檢測的更改類型?改變了標記結構?更改內容? (能見度是否計數?)只有鏈接? – sisve 2009-09-29 06:14:14

+0

主要是我對鏈接結構感興趣。 – 2009-09-29 06:21:51

回答

0

無論您打算散列,總結和其他指紋的數據或結構如何,請確保在許多網站「out-there」中解釋各種形式的噪聲。這樣的噪聲或隨機內容的

例子有:

  • 公司股票價值股票
  • 在地方城市,他們是
  • 幾頁頁腳有電流(現在)的日期 - 時間某處
  • 天氣狀況或標頭
  • 廣告內容(越來越多這些使看起來本土的網站擊敗在網頁瀏覽器上的廣告阻滯劑)
1

你總是可以散列網站的原始HTML並進行比較。我相信網站可以保留「最後編輯」日期,但不知道這是否始終更新。

編輯:我的錯誤,這只是一個比較網站與以前的版本,但沒有真正指明它的方式,你的意思。

1

就扔了這一點有:

你爲什麼不抓取網站,把所有的鏈接到這將是該網站的地圖的XML文檔。

在該文件上創建一個MD5校驗和並將其存儲。然後,在將來的任何時候,您都可以重新抓取,重新創建XML,重做校驗和,並將其與您之前的校驗和進行比較。

如果他們不匹配,鏈接結構已經改變 - 雖然你不一定知道在哪裏。