2012-01-15 43 views
1

我正在寫一個應用程序,我想用一組關鍵字(在高流量電子郵件服務器上)掃描電子郵件內容(正文/主題)。全文搜索電子郵件內容與索爾關鍵字列表

我的關鍵字列表是400K左右(和不斷變化的日線級別),我使用SOLR和索引我的關鍵字作爲索引(關鍵字也包含各種領域,如名字,姓氏,商品等)。

現在問題是,如何通過SOLR查詢使用關鍵字搜索自由文本數據的郵件正文。

作爲一個例子,我的關鍵字是「XYZ葡萄酒」,如果電子郵件正文顯示「嗨,這是XYZ,我給你一些葡萄酒」或「嗨,給你一些XYZ葡萄酒,謝謝你的生意」我應該使用不同的搜索分數來搜索HIT。

回答

2

爲您的電子郵件編制索引,然後搜索+XYZ +Wines(或更好地設置q.op=AND)並使用pf/ps來提高術語接近度。

+0

技術上我可能無法索引電子郵件由於體積.....如果我索引的電子郵件,我可能需要查詢每個關鍵字(數以千計100S)在電子郵件內容.... – Rushik 2012-01-16 03:40:02

+0

@Rushik:我不是確定你的意思...顯然Solr/Lucene只能在索引內搜索。使用Solr索引電子郵件也非常容易,請參閱http://wiki.apache.org/solr/MailEntityProcessor – 2012-01-16 12:55:43

+0

Sure Mauricio,我完全理解,但我不想查詢每個關鍵字(數千)到我索引的電子郵件以獲取HIT,相反,我可能會預先處理電子郵件正文(刪除常用術語等)和電子郵件搜索中的每個術語與索引關鍵字。 – Rushik 2012-01-16 18:34:45