2017-03-02 88 views
1

因此,我正在研究一個具有非常特定的全球站點搜索功能的站點,這些站點使用GSS,正如許多人已經知道的那樣,GSS將在四月份離開。我需要抓取網站並將XML發送到Cloudsearch,但是我對如何解決這個問題感到困惑,並且我沒有發現很多關於在互聯網搜索後使用AWS Cloudsearch構建全球網站搜索的材料幾天。到目前爲止,我正在計劃使用Apache Nutch來抓取該網站,但我真的很感激一些輸入。提前致謝!用AWS Cloudsearch取代Google Site Search

+0

你有沒有讀過http://docs.aws.amazon.com/cloudsearch/latest/developerguide/what-is-cloudsearch.html? –

+0

@RicardoC在過去的幾天裏,我一直在閱讀它們,但是我不知道專門討論如何使用爬蟲。 –

+0

Amazon CloudSearch不是網絡爬蟲。 –

回答

1

您是否遇到過我們的博客? Index the web with AWS CloudSearchIndex the web with StormCrawler (revisited)。我介紹瞭如何使用Nutch和StormCrawler來索引AWS Cloudsearch。

如果您需要搜索託管,我建議Elasticsearch和Elastic Cloud來代替。我發現Cloudsearch速度慢,麻煩而且昂貴,而且StormCrawler和Apache Nutch的Elasticsearch也有更多的資源。

+0

我已閱讀你的第一篇文章,提到Nutch。我非常欣賞Elasticsearch的建議。目前,我在一個網站上工作,並試圖尋找Google Site Search的替代方案,這讓我倍感爭議。你認爲彈性雲將是一個體面的替代品嗎?這很糟糕,但Google似乎在這個特定的市場上留下了huuuuge的空白。再次感謝! –

+0

@EthanStepanian歡迎您。 Elastic Cloud無法幫助抓取本身,但與StormCrawler相結合,這將是一個好方法。另外還有一些基於Apache SOLR的託管解決方案,您可以使用Nutch等其他爬蟲。 –