2012-02-17 112 views
0

我正在wiki xml轉儲中使用lucene編寫維基百科文章的搜索引擎,並且我想計算引擎在與特定查詢的谷歌wiki結果相比時的準確性,當我給「site :en.wikipedia.org「以及查詢。我想爲多個查詢執行此操作,以便手動獲取Google搜索結果網址。我有Google APIs使用機器人搜索谷歌,但問題是我想擺脫某些類型的結果,如 「/ Category:」 「/ icon:」 「/ file:」 「/ photo:」 和用戶頁面。過濾谷歌查詢結果

但我還沒有找到一個方便的方法來做到這一點,除了使用發出查詢的迭代方法,獲得n個結果,然後使用正則表達式篩選出來,然後檢索剩餘的(nx)結果並等等。當我這樣做時Google會阻止我。

有沒有一種智能的方法可以按照我想要的方式使用Java來獲取Google結果?

在此先感謝你們。

回答