我們有很多的代碼,查詢Linux框上的一大堆文件夾。每當我必須找到一個腳本,我做一個fgrep -ircl --include=*.{sql, py, sh} "Keyword" *
。索引/存儲用於搜索/檢索的代碼(腳本,查詢)的最佳高效方法是什麼?
我打算創建一個簡單的搜索界面(網絡),它可以讓你搜索一個關鍵字,文件類型和顯示文件的位置,並從生成的文件的摘錄。 Lucene可能是一個很好的候選人,但我不想爲此目的創建所有文件的副本。
我正計劃在下班時間每天使用Python腳本對文件建立索引。更像Google桌面我猜,但對於Web(跨平臺可用性)。
你們建議的是完成這項任務的最佳方式?
我總是和我的朋友們極力反對在數據庫中存儲完整的文件COS'我認爲關係數據庫設計時沒有考慮到這一點還是我可能是錯的,但我擔心的效率。如果我這樣做,那麼利用wordpress的搜索系統與我的文件更有意義(最小的努力)。你說什麼? – ThinkCode
我已經使用這種技術來存儲非常大的記錄集 - 我記得有一個測試結果超過了500MB。做一個像搜索這樣的文本最多花費大約30秒,測試返回大約2000行 - 這是使用舊的ADODB的東西。請注意,我沒有使用「全文」索引,而只是使用全文搜索。我也用MySQL和Sybase來完成這項工作,並獲得了同樣出色的結果。一個可比較的用例是維基百科 - 非常大的文本文章在非常大的行集中搜索全文,MySQL。例如,對MongoDB進行測試會很有趣。 –