Q

如何在一組文件中查找字符串和字符串模式？

2011-09-23 62 views 0 likes

0

我有一個約兩百萬文本文件的集合，總共約10GB未壓縮。我希望在這個集合中找到包含短語的文檔，看起來像「每次」或「bill clinton」（簡單的不區分大小寫的字符串匹配）。我也想找到含有模糊內容的短語;例如「數週」。如何在一組文件中查找字符串和字符串模式？

我試過使用Lucene進行索引，但找到包含停用詞的短語並不好，因爲它們在索引時默認會被刪除。 xargs和grep是一個緩慢的解決方案。這種數據量的快速和適用性是什麼？

2011-09-23 Leon Derczynski

+0

當然Lucene。也許你應該問「我怎麼能做到這一點，並與Lucene」 –

+0

關閉Lucene的停止詞處理？祝你好運。 – shellter

A

回答

0

你可以使用postgreSQL數據庫。有全文搜索實施，並通過使用字典，您可以定義自己的停用詞。我不知道它是否有幫助，但我會試一試。

2011-09-23 16:49:42

相關問題