2012-01-11 50 views
0

我打算使用Solr作爲搜索服務器,並將開發自己的蜘蛛或可能擴展Nutch。Solr與多核,分佈式架構?

我試圖設計出用於我的目的,現在一個最好的經濟拓撲和還停留開放式的未來進行擴展。

我打算使用Amazon AWS託管所有機器。我的問題是瞭解以下想法和要求的可行性,幫助將不勝感激!

  1. 一個Solr的節點(專用於只提供查詢服務 - 爲查詢服務器Web前端)
  2. 按需Solr的節點(1或多個)(如索引服務器 - Nutch的或其他蜘蛛將連接到這個節點並淹沒了新的內容抓取和索引)

我不知道像許多其他搜索服務器(如Microsoft FAST或SharePoint搜索),我可以部署與常見的數據庫分佈式拓撲結構。

我願意使用Hadoop的或任何其他分佈式文件系統,如果能支持這樣的拓撲結構。

所以主要將顯現如下,

    --------------------------------------------------- 

       Hadoop or anyother distributed file system/db system 

        --------------------------------------------------- 

              || 
              || 
              || 
              VV 
        ----------------    ------------------------ 

        Solr query node     Dedicated Solr index nodes 
       (1 powerful server)   +    (on demand) 
               with Nutch or other web spider 

        ----------------    ------------------------ 

         ||         || 
         VV         VV 
        Web Front End       Internet  

我是新來的這個技術,許多其他論壇和自由職業者的網站提出了多核執行,社區成員,但我的理解是多是支持區分datanodes(與集羣或分佈式體系結構無關)!我對麼?

請告知可行性!

許多在此先感謝。

Nilay。

回答

1

「核」中的solr用於描述一種「全文索引環境」。 您可以運行1個Java EE容器(tomcat,ant等),以便爲不同的數據庫和不同的全文索引提供不同的服務。 示例1產品搜索的核心,1個用於郵件搜索的核心等。

使用solr運行的每個Java EE容器都至少有一個內核。 看看你的拓撲結構,它看起來像你需要一個前端solr-envorinment,可能是1個核心和一個後端solr-envoronment,可能還有1個核心。

所以,你有2臺服務器,2個的Java EE容器和2個內核。 您可以將這2個內核視爲「多」(多於一個)內核,但實際上這是2個單核內核安裝,它可能使用了(可能)類似複製的內容。 http://wiki.apache.org/solr/SolrReplication

+0

感謝,我會lookinto它。我的需求是模擬所有solr實例之間仲裁類型的存儲,並且我可以根據需要調出處理爬網數據和更新仲裁存儲索引的太陽能實例。更多的是通過集羣,但具有彈性屬性,所以我可以擴展到我的需求。 – 2012-01-12 14:01:39