2011-11-21 97 views
3

我想創建一個工具,它產生的某些詞或短語如何經常在博客,論壇,社交媒體和新聞網站,我發生的統計數據。即是這樣的:搜索博客,論壇,新聞網站編程

20.11.2011;足球; 800302

21.11.2011;足球;百萬

每天這個工具會做一個搜索,然後保存的數在特定的日子提及搜索項目。

我如何能實現這一點(做一個谷歌/ Yandex的搜索程序)的Java或Ruby的?

有谷歌博客搜索API(http://code.google.com/apis/blogsearch/),但現在已被棄用。

+0

你尋求幫助與哪些具體問題? –

+0

我需要一個代碼示例(使用Java或Ruby),在該示例中,我向查詢引擎發送查詢,並在過去24小時內獲取博客和其他指定數據源中搜索項的數量。 –

回答

4

如果你心裏有特定的網站,那麼你可以一天一次刮它,但如果你正在尋找更廣泛的網站在您的文章,提到男孩,那是一個艱難的一個。我會嘗試使用谷歌趨勢-http://www.google.com/trends?q=football或谷歌博客搜索http://www.google.com/search?q=football&tbm=blg

它會爲你節省很多的麻煩。否則,您可能需要編寫自己的爬蟲程序,並索引非常大量的數據。在這種情況下,你可能想看看Nutch http://nutch.apache.org/和Lucene http://lucene.apache.org

+0

謝謝,谷歌趨勢是我期待的。 –