2009-06-26 232 views
10

有沒有人可以推薦一本關於全文檢索的好書/論文/文章(也可能是一般的索引)。我非常肛門需要了解我的應用程序幕後發生了什麼,而且我無法理解爲什麼Sphinx和其他外部FTS將MySQL/MyISAM留在塵世。全文搜索引擎?

回答

2

我會從this開始。它適用於SQL Server,但閱讀不會受到影響,因爲除了實現細節之外,許多概念在數據庫中將(非常可能)相同。

3

我發現postgres全文檢索頁面http://www.postgresql.org/docs/8.3/static/textsearch.html非常有啓發性。

特別:http://www.postgresql.org/docs/8.3/static/textsearch-intro.html

文本搜索運營商已在數據庫中存在多年。 PostgreSQL有〜,〜*,LIKE,和ILIKE操作符文本數據類型,但他們缺乏現代的信息系統需要許多基本屬性:

  • 沒有語言支持,甚至英語 。正則表達式不足 ,因爲它們不能容易地處理衍生詞,例如, 滿足和滿足。您可能會錯過 包含滿足的文檔, 儘管您可能想要 在搜索滿足時找到它們。 可以使用OR來搜索多個派生形式的 ,但是這個 是單調乏味且容易出錯的(某些 單詞可能有幾千個 派生物)。
  • 它們沒有提供 搜索結果的排序(排名),因此當找到成千上萬的 匹配文檔時,它們會使 無效。
  • 由於 沒有索引支持,所以它們往往會很慢,所以它們必須 處理每個 搜索的所有文檔。
3

有一個優秀的免費信息檢索書(克里斯托弗·D·曼寧,普拉巴卡爾拉加和辛裏奇Schütze,現代信息檢索,劍橋大學出版社,2008年),包括文本搜索,提供免費(legit) here