hbase-indexer solr numFound不同於hbase錶行的大小

最近，我的團隊使用CDH上的hbase-indexer將hbase表列索引到solr。當我們部署hbase-indexer服務器（稱爲Key-Value Store Indexer）並開始測試時。我們發現，該行HBase的表和Solr指數的大小的情況是不同的：hbase-indexer solr numFound不同於hbase錶行的大小

我們用鳳凰來算HBase的錶行：

0: jdbc:phoenix:slave1,slave2,slave3:2181> SELECT /*+ NO_INDEX */ COUNT(1) FROM C_PICRECORD; 

+------------------------------------------+ 
|     COUNT(1)     | 
+------------------------------------------+ 
| 4084355         | 
+------------------------------------------+

而且我們使用的Solr Web UI來算Solr的索引大小：

numFound : 4060479

我們無法從hbase-indexer日誌和solr日誌中發現任何錯誤日誌。但是hbase表和solr索引之間的行大小真的不同！有沒有人遇到這種情況？我不知道該怎麼辦

來源

2016-05-17 CrazyPig

什麼是solr中的唯一ID ...？它與hbase不同...？ –

solr schema.xml中的唯一標識與hbase rowkey – CrazyPig

我的理解：

HBase的行數 - Solr的行數（numfound）=丟失記錄

4084355 - 4060479 = 23876（這是在有HBase的和Solr中丟失）

Key-Value存儲索引器服務使用Lily HBase NRT索引器來索引添加到HBase表的記錄流。

NRT適用於增量數據而不是整個數據。

出於我的經驗，這些都是可能的原因：

1）NRT初步制定的，如果突然NRT不工作（由於一些健康問題），那麼有數字的差異的可能性。 2）如果在將記錄插入到HBASE（可能..出於性能原因）時關閉WAL，則NRT在WAL上工作（提前寫入日誌），NRT將不起作用。

可能的解決方案： 1）刪除Solr文件並將數據從Hbase新加載到Solr。你可以在整個數據（批次索引增量數據不會工作，它適用於整個數據集）

2）運行作爲數據流管道的一部分HBase的批量索引，寫的map-reduce程序插入數據（在我們的實現中我們已經做了什麼）

來源

2016-05-17 15:43:12

相同，也許你是對的。在你的解決方案1）中，形象化這個場景：hbase數據每天都會增加，我們需要hbase-indxer來不間斷地存儲索引。如果我們運行批量索引器來批量處理整個數據，那麼在mapreduce作業期間，可能會出現增量數據，這種數據會被hbase-indexer觀察到嗎？這可能會導致solr索引大小diff與hbase錶行的大小再次？如果屬實，這是非常可怕的！ – CrazyPig

嗨，RamPrasad G，最近我們發現solr的numfound與hbase行數不同的原因。只有當我們的hbase表已經創建鳳凰二級索引時纔會發生。如果沒有索引表跟隨數據表，則在導入完數據後，solr中的numfound與hbase錶行數相同。我發現這種情況使用jconsole觀看hbase-indexer指標[https://github.com/NGDATA/hbase-indexer/wiki/Metrics]（https://github.com/NGDATA/hbase-indexer/wiki/Metrics）但我們不知道爲何會發生...... – CrazyPig

好的，我們最近解決了這個問題。

由於hbase-indexer導致solr numfound與hbase錶行數不同的原因導致刪除某行而不是插入它們的錯誤。我們發現根據HBase的索引器度量這種情況： https://github.com/NGDATA/hbase-indexer/wiki/Metrics

我們使用JConsole的觀看JMX指標數據，結果發現：

索引中刪除數= HBase的錶行數 - Solr的numfound

最後我們調試進入hbase-indexer的源代碼，發現一些代碼會導致這個問題，也許這是一個關於hbase-indexer的問題，請參閱：https://github.com/NGDATA/hbase-indexer/issues/78

來源

2016-06-03 09:19:00 CrazyPig

hbase-indexer solr numFound不同於hbase錶行的大小

回答

相關問題