2017-03-03 73 views
0

我是Solr的新手,嘗試在我們的項目中使用Solr進行人員搜索。具有姓名,出生日期,性別和地址等字段的人員記錄。我們嘗試使用各種模糊過濾器和語音過濾器來檢索人物記錄並獲得體面的結果。Solr人名搜索的語音算法

對於語音算法,我們使用Beider Morse語音算法,它比我們迄今嘗試過的其他算法要好。我想知道是否有人使用Solr非常專門用於人員搜索,並且可以請您分享您使用您用於名稱匹配的語音算法的經驗以及有關這些算法的任何比較研究。

非常感謝

+0

我假設「人」你的意思是你正在尋找文件基礎上的民族**名稱**?如果是這樣的話,編輯你的問題會很好。 – Anika

+0

非常感謝Anika,對個人細節進行了補充說明。 – thiru

回答

0

名稱匹配是一個相當普遍的使用情況Solr的,所以我相信有很多人在這方面的經驗。

但我不認爲只是選擇最好的語音過濾器就足夠了。無論你需要爲你的特定情況定製它。例如:

  • 除了名字/姓氏等,我通常會遇到其他字段(國籍,年齡,性別......)。你也是。您通常將這些用作fq或僅用於提升。
  • 是假陽性還是假陰性同樣不好或者一個比另一個不那麼嚴重?
  • 您的語料庫包含單一語言,或者名稱可以來自世界的任何地方?

等等。基礎有這個商業產品我想你可以看到their presentation在這個問題上的Lucene/Solr革命2015年

+0

謝謝柿子。我們正在考慮像暱稱,部分名稱,亂序名稱等其他方面以及其他字段,如年齡,地址來確定結果集的分數。我對語音算法並不確定,並且現在使用Beider Morse。我們擁有的名稱不僅僅是英語,而且閱讀Beider Morse也可以處理許多其他語言。如果有其他算法的任何建議會嘗試。 – thiru

+0

我的觀點是,你最後得分中的其他東西(在我上次的設置中,我最終做了一個非常複雜的edismax和reranking)會比使用Beider Morse或其他一些拼音算法更有效 – Persimmonium

+0

我明白了,謝謝非常適合你的建議和你的時間! – thiru