2011-09-23 62 views
0

我有一個約兩百萬文本文件的集合,總共約10GB未壓縮。我希望在這個集合中找到包含短語的文檔,看起來像「每次」或「bill clinton」(簡單的不區分大小寫的字符串匹配)。我也想找到含有模糊內容的短語;例如「數週」。如何在一組文件中查找字符串和字符串模式?

我試過使用Lucene進行索引,但找到包含停用詞的短語並不好,因爲它們在索引時默認會被刪除。 xargs和grep是一個緩慢的解決方案。這種數據量的快速和適用性是什麼?

+0

當然Lucene。也許你應該問「我怎麼能做到這一點,並與Lucene」 –

+0

關閉Lucene的停止詞處理?祝你好運。 – shellter

回答

0

你可以使用postgreSQL數據庫。有全文搜索實施,並通過使用字典,您可以定義自己的停用詞。我不知道它是否有幫助,但我會試一試。

相關問題