2010-06-08 34 views

回答

4

使用類似cURL的東西來獲取頁面,然後像Simple HTML DOM類似的東西來解析它並提取你想要的元素。

+0

thanx,plz你還可以爲我提供一些Python中的工作。 – SMSM 2010-06-09 07:58:12

0

雖然我一直在尋找類似的功能,我碰到的Facebook消息的URL中提取特徵的一個jQuery + PHP演示傳來:使用HTML DOM解析器 http://www.99points.info/2010/07/facebook-like-extracting-url-data-with-jquery-ajax-php/

相反的,它的工作原理簡單的正則表達式。它尋找標題,描述和img標籤。因此,圖像提取在很多使用圖像CSS的網站上表現不佳。此外,Facebook首先查看自己的元標籤,然後查看HTML的經典描述標籤,但它很好地說明了原理。

+0

您可以通過http://wallscriptclone.com/ – 99Points 2016-10-18 16:21:57

2

如果網站有oEmbed支持,這比刮HTML更容易和更強大的:

透過oEmbed是允許在第三方站點的URL的嵌入式表示的格式。簡單的API允許網站在用戶發佈到該資源的鏈接時顯示嵌入的內容(如照片或視頻),而無需直接解析資源。

oEmbed由YouTube和Flickr等網站支持。

5

Embed.ly對於這個目的有一個很好的API。如果可用的話,他們的api會返回該網站的oEmbed數據 - 否則,它會嘗試提取像Facebook這樣的網頁摘要。

+0

真實地看到這個演示,但是限制了用戶,如果您的網站有足夠的用戶Emdedly會向您收費,那麼您會做得很好金額足以支付每月10美元至100美元的費用,您將爲每月5萬次查詢付費,免費每月只有5,000次查詢。關於Embedly的一些信息,然後再去看看。總而言之,使用插件解決問題的最佳答案。除此之外,如果你從頭開始,那麼cURL將是唯一的另一種方式。 – 2013-04-19 20:10:18

1

我正在爲這個問題的項目工作,它不像編寫一個html解析器和期望網站是'語義'一樣容易。特別是提取視頻和查找自動播放參數正在被破壞。您可以檢查http://www.embedify.me中的項目,該項目也有fb樣式的url預覽腳本。正如我所看到的,embed.ly和oembed是被動語法分析器,他們需要站點來支持它們,所謂的提供者,這種方法與fb完全不同。

+1

謝謝。很棒。可下載的自主版本也不錯。 – 2012-05-06 13:51:13