2011-08-25 88 views
4

許多頁面(臉譜,谷歌+等)都有一個函數,可以創建一個包含標題,圖像和鏈接文本的摘要。我試圖找出是否有任何關於如何做這種功能的圖書館或指南,但我的搜索結果根本沒有任何幫助。從鏈接創建摘要

我知道我可以解析頁面的html並提取我想要的元素,但我認爲應該有一些標準來說明如何做到這一點(也許還有如何創建對此友好的頁面那種functionallity的。

任何人有一個很好的鏈接,將我指向正確的方向?Javascript或.NET是我首選的choise,但我也能實現它自己。

回答

1

對於「或許還怎麼創建對此類功能都很友好的頁面「部分:
您可能正在搜索open graph protocol

<html xmlns:og="http://ogp.me/ns#"> 
<head> 
<title>The Rock (1996)</title> 
<meta property="og:title" content="The Rock" /> 
<meta property="og:type" content="movie" /> 
<meta property="og:url" content="http://www.imdb.com/title/tt0117500/" /> 
<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" /> 
... 
</head> 
... 
</html> 

我認爲這是facebook的第一個地方。但Facebook似乎有自己的算法來檢測這些標籤丟失時頁面最相關的部分。

0

許多頁面(臉譜,谷歌等)有一個功能,創建一個 總結與標題,圖像和一些鏈接的文字。我試圖 找出是否有任何圖書館或指導方針如何做到這一點 類型的功能,但我的搜索結果一點都沒有幫助。

這樣的函數通常使用某種「爬行」來構建,這意味着腳本打開鏈接並查看其數據。就像你建議你自己一樣。

我知道,我可以分析一個網頁的HTML和提取元素 我想,但我認爲應該有中 如何做到這一點(也許還如何創建網頁某種標準的那是友好的這種 樣functionallity的。

標準的方法是這樣的大多數搜索引擎做的,像谷歌,你從標題的網站,說明標題從描述,如果有任何。大多數搜索引擎現在幾天忽略描述元數據,而是試圖做出自己的總結。

這通常通過查找標題(h1,h2等)和段落來完成。

爲了使這些爬行網站「友好」,您可以根據Web標準(W3C)建立您的網站。

任何有良好聯繫的人都會將我指向正確的 方向嗎? Javascript或.Net是我的首選,但我也可以自己實現它。

語言真的沒關係,只要它能夠做一些基本的HTTP-GET。