2017-10-05 250 views
0

我正在Solr 6.5,我注意到的一件事是我的索引文件大小不斷增加與內容。我使用了一個停用詞文件,並且沒有任何常見單詞被編入索引。Solr索引文件刪除html標籤和垃圾內容形式索引

我在索引中看到很多HTML標籤,我不想索引,也不應該在索引內容中添加註釋。我怎樣才能找到這些並更新我的stopword txt來處理它們?

我只索引了英文內容,索引文件已經是30 GB,只有900萬份文檔。

回答

1

您可以使用HTMLStripFilterFactory刪除編制索引時的所有HTML內容。

但是,對於900萬個文檔,30GB僅爲每個文檔4kb以下,這並不是那麼重要。這些文件確實具有固有的大小,因此只要您將索引編制索引,它們就會將數據添加到索引。