2010-07-04 103 views
4

我有一個新聞聚合器Newzupp,我想修改。現在我只是展示新聞報道的標題,並將其鏈接到他們的網站。如何檢索博客文章/新聞文章的主要圖像?

我打算通過使用圖像+標題而不是普通標題來使其更加圖形化。我想知道如何獲得每篇文章的主要圖像(有點類似於google新聞)。

我能想到的一種方法是我可以去除所有圖像並顯示指向同一文章的圖像。但我認爲這不會有效。有沒有其他的方式來做到這一點?


我找到了解決辦法。

  1. 獲取網址[HTML/XML]內容
  2. 刮使用hpricot
  3. 查找與標籤「IMG」的所有元素
  4. 做一些研究,以找到他們的主要內容顯示圖像。 [喜歡Wired.com的RSS訂閱第6張圖片]

我仍然認爲這是非常低效的。我想知道Google新聞服務如何刮掉網站/博客並顯示相關圖片。

回答

2

也許你可以按照DOM層次結構中的圖像大小或位置進行過濾/排序(即最接近身體頂部/緊跟在h1標籤之後)。

+0

酷...可能與一些網站合作..但就像我說的,在有線的第六影像畫面的情況下..這是人們嵌入谷歌廣告的其他網站相同之後h1標籤 – Jagira 2010-07-05 07:06:29

0

爲什麼不把所有刮過的圖像(使用hpricot/nokogiri)轉換爲方形縮略圖圖像(使用rmagick或其它類似縮略圖,或者只是在服務器端重新調整大小),並將這些圖像分組在主題下方的一個DIV中身體。只有當用戶點擊它們時,您纔可以使用帶有W /幻燈片的燈箱來顯示實際圖像。這樣看起來更加圖形化,並且不會破壞網站的外觀。尋找最相關的圖像是棘手的。

1

那麼廣告主的黑名單呢,你會忽略它的圖片呢?

由於一般而言,廣告託管在其他地方,而故事相關圖像託管在同一個域中,因此您可以過濾頁面以查找與網站本身具有相同基本網址的圖像。

+0

好方法。但是如果文章有多個圖像[與文章相關]會怎樣。那麼如何選擇主圖像呢? 一個解決方案可以結合你的兩個答案。 – Jagira 2010-07-06 11:42:36

0

您也可以嘗試在頁面上搜索OpenGraph元標記。大多數新聞網站正在使用og:image屬性來指定文章的主要圖像。

例子:

<meta property="og:image" content="http://ia.media-imdb.com/images/rock.jpg" />