1
我正在寫一個應用程序,我想用一組關鍵字(在高流量電子郵件服務器上)掃描電子郵件內容(正文/主題)。全文搜索電子郵件內容與索爾關鍵字列表
我的關鍵字列表是400K左右(和不斷變化的日線級別),我使用SOLR和索引我的關鍵字作爲索引(關鍵字也包含各種領域,如名字,姓氏,商品等)。
現在問題是,如何通過SOLR查詢使用關鍵字搜索自由文本數據的郵件正文。
作爲一個例子,我的關鍵字是「XYZ葡萄酒」,如果電子郵件正文顯示「嗨,這是XYZ,我給你一些葡萄酒」或「嗨,給你一些XYZ葡萄酒,謝謝你的生意」我應該使用不同的搜索分數來搜索HIT。
技術上我可能無法索引電子郵件由於體積.....如果我索引的電子郵件,我可能需要查詢每個關鍵字(數以千計100S)在電子郵件內容.... – Rushik 2012-01-16 03:40:02
@Rushik:我不是確定你的意思...顯然Solr/Lucene只能在索引內搜索。使用Solr索引電子郵件也非常容易,請參閱http://wiki.apache.org/solr/MailEntityProcessor – 2012-01-16 12:55:43
Sure Mauricio,我完全理解,但我不想查詢每個關鍵字(數千)到我索引的電子郵件以獲取HIT,相反,我可能會預先處理電子郵件正文(刪除常用術語等)和電子郵件搜索中的每個術語與索引關鍵字。 – Rushik 2012-01-16 18:34:45