2009-12-21 93 views
1

我試圖從一個域回顧一組鏈接和內容。YQL刮整個網站/域

查詢在谷歌將

"site:www.newswebsite.com search_term" 

我已經看到了一些接近的東西來得到這個工作,但我似乎無法完全得到搜索橫跨整個網站的工作,然後通過過濾搜索詞。

這可能沒有自定義數據表嗎?

+0

這似乎是越來越接近我, 選擇HTML,從search.web抽象那裏查詢= 「newswebsite.com SEARCH_TERM」 – 2009-12-21 14:36:20

+0

並進一步 選擇標題,摘要,URL從search.web這裏查詢=」 newswebsite.com search_term「 – 2009-12-21 14:40:27

回答

2

我到最後的底部。

select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse() 

這搜索3網站,按日期排序和最新的第一。有一種替代方法可以扭轉這種情況,但這似乎現在起作用。我認爲這是降序=真正的排序內(字段='日期',降序='真')

非常有用,即使我這樣說自己。

0

Christian Heilmann剛剛在YQL上寫了一篇相當不錯的文章,並從24ways website上的HTML數據源獲取信息。