2012-03-14 132 views
0

我有幾個關於Lucene的/ SOLR索引架構最大問題數SOLR模式 - 存儲文檔Id字段。在Lucene索引文件

  1. 這裏是我的文檔ID字段(唯一鍵),如SOLR架構中定義:

    <字段名= 「ID」類型=「長」索引=「真」所需=「真正的」存儲=「真」 />

所以它需要索引我永遠不會執行由Id字段搜索=」真正」?順便說一句,它是否需要存儲=「真正」(我認爲它將被存儲無論如何,所以沒關係)。

而且2:單個SOLR索引中可以存儲的文檔的最大數量是多少?或者,更確切地說:它能容納50億個小文件嗎?

第三個問題:我需要對2個字段的組合進行搜索:long類型和一個整數類型之一。什麼是存儲和索引這些字段的最有效方式 - 分別存儲和索引它們或者根據它們預先計算一些散列值並僅通過散列進行搜索?由於我想擁有數十億個這樣的文檔,我需要儘量減少存儲需求,同時保持搜索效率。

感謝 RG

回答

1
  1. http://wiki.apache.org/solr/SchemaXml#The_Unique_Key_Field

    它不是強制性的架構有一個唯一鍵字段

  2. Solr的最大~274 billion文檔可以持有。處理和搜索響應將取決於內存。但是,如果索引大小增加並且無法維護,則可以使用Distributed Search

  3. 您可以將這些字段組合爲單個字段作爲散列,而不是將其標記爲已存儲以減少索引大小。這會加速最初的搜索。緩存應該照顧類似的搜索。

+0

對於文檔的複雜性和Solr的內存使用情況,有一些經驗法則嗎? – aitchnyu 2012-03-14 11:22:57

+0

文檔的複雜性不應該是一個問題,但它沒有規則。內存使用情況取決於您使用的索引大小和緩存配置。如果整個索引可以放入內存並且不需要執行文件查找,Solr將表現最好。 – Jayendra 2012-03-14 13:01:39

+0

「Solr可以容納無限數量的文件」,因此它目前沒有2.1B文件限制? – aitchnyu 2012-08-24 11:32:36