2017-10-15 108 views
0

我有一個1M到10M字符串的列表,我想查看它們中的哪些可以在單個文檔中找到(比如說1頁文本)。在單個文檔中搜索很多字符串

我知道我可以使用Lucene(Solr/Elasticsearch)來查找包含字符串的所有文檔。但這是相反的。

我可以編寫一些基於字符串搜索算法之一的臨時解決方案,如Aho-Corasic,try等,但我認爲我會重新發明輪子。有沒有任何圖書館/框架?

(我很好的分割字符串和文檔進言,如果這有什麼差別)

回答