2010-08-08 119 views
7

我最近增加了搜索功能到我的django支持的站點,允許僱主使用關鍵字搜索員工。當用戶最初上傳他們的簡歷時,我將它變成文本,擺脫停用詞,然後將該文本添加到該用戶的TextField中。我用Django-Haystack和Whoosh搜索引擎。Django Haystack子串搜索

三個東西 -

從中我可能會不使用額外的功能1)除,有沒有具體的優勢轉換到Solr或者Xapian的?

2)在將簡歷轉化爲文本時,我基本上是對PDF進行索引。我知道Xapian和Solr都支持.pdf索引,但是從Haystack看起來並不如此。有關如何解決此問題的任何提示?或者我應該繼續索引它自己?如果是這樣,我應該做的不僅僅是提供關鍵字的文本文件嗎?

3)如果關鍵字與自己完全匹配,則只會返回結果。如果用戶有'數學'作爲他的關鍵詞,並且我搜索'數學',我希望那個用戶出現。我無法確定Xapian或Solr是否支持這一點。思考?

感謝您的任何建議。我將繼續自己暫時對此進行深入研究。

+1

你找到了你的問題的答案?您想與我們分享嗎? – Armance 2012-12-11 12:46:44

回答

6

不幸的是,我不知道回答你的其他問題,但對於第3點。)Whoosh實際上支持這一點。您將不得不使用SearchQuerySet的自動完成功能。

這裏詳細說明: http://docs.haystacksearch.org/dev/autocomplete.html

我目前使用的部分嗖和匹配匹配自己。