我正在嘗試在大型數據庫中搜索長而近似的子串。例如,一個查詢可能是一個1000個字符的子字符串,它可能與數百次編輯的Levenshtein距離的匹配不同。我聽說索引q-grams可以做到這一點,但我不知道實現細節。我也聽說Lucene可以做到這一點,但Lucene的levenshtein算法能夠進行數百次編輯嗎?也許是剽竊檢測世界的一些東西?任何建議表示讚賞。在大型數據庫中搜索(非常)近似子串
5
A
回答
1
Q-克可能是一個辦法,但也有其他如高爐,BLASTP - 這是用於蛋白質,核苷酸等比賽
的Simmetrics庫的字符串距離的方法全面收集。
+0
你也應該看看餘弦相似性 – Mikos 2010-08-08 02:51:11
1
Lucene似乎並不是這裏的正確工具。除了Mikos的精彩建議,我聽說過AGREP,FASTA和Locality-Sensitive Hashing(LSH)。我認爲一個有效的方法應該首先修剪搜索空間,然後才能對剩餘的候選人進行更精細的評分。
相關問題
- 1. 在數據庫中近似搜索
- 2. 搜索大型數據庫
- 3. 訪問數據庫VB - 在數據庫中搜索大多數「最近」記錄
- 4. 設計非常大的數據庫搜索文本
- 5. 在大型mysql數據庫中搜索效率(類似於LIKE功能)
- 6. 在大型數據集中搜索
- 7. 在大型數據集上查詢Firebase數據庫非常慢
- 8. 搜索大型數據集
- 9. 在BASH中搜索近似名稱
- 10. 在大型數據庫中搜索特定ID?
- 11. 在大型數據庫中搜索時間戳記間隔
- 12. 在數據庫中搜索
- 13. Lucene近似搜索中詞的順序
- 14. TSQL使用LIKE搜索大型索引數據庫
- 15. 如何在數據庫中存儲最近的搜索?
- 16. 在大型數據集上進行高效的子字符串搜索
- 17. 如何有效搜索潛在的大型數據庫?
- 18. 備份非常大的MySQL數據庫
- 19. 在數據庫中搜索數據。 PHP
- 20. 在大行內搜索大型Mysql數據庫中的確切日期ID
- 21. 在大型數據集中遞歸搜索索引的性能
- 22. 在數據庫中搜索(類似)字符串的可擴展方式
- 23. 在h5py或類似的分層數據庫中快速搜索
- 24. 2維近似數據的二進制搜索算法
- 25. 搜索大的數據爲多個串
- 26. 如何搜索大型XML數據集?
- 27. Firebase數據庫OutOfMemoryError - 大搜索操作
- 28. 在非常大的SVN遠程項目中搜索
- 29. 使用openldap進行近似搜索
- 30. Solr模糊搜索近似詞
出於興趣,您要搜索的字符串信息是什麼 - 文本信息或以不同形式構建的東西? – 2010-08-07 23:08:02