我還沒有交出細節,但我正準備在Java中實現一個命令行搜索工具來搜索包含兩個字段(docid,orgid)的文件。我已經瞭解到這個文件開始很小,並且一直在增長。我需要能夠通過docid並取回組織。快速搜索大型平面文件的最佳方法是什麼?
有誰可以告訴我 - 什麼可能是最好的技術來搜索像我上面提到的平面文件?目前,我們只處理5萬行(超過兩個月)的文件中的數據,但一旦系統安裝到位後,它的增長速度會更快。
它似乎將這個存儲在一個可搜索的二進制系統中,但我不確定開始時需要注意什麼。
我可以將其轉儲到數據庫中,但這似乎是矯枉過正。另外要做到這一點,我將不得不安裝在服務器上的數據庫,這將是困難的。
爲什麼它會過度殺傷? – 2013-02-25 19:31:58
您會偶爾進行一次搜索,還是希望能夠爲多個查詢提供快速答案的服務?如果a)在第二種情況下查看是否不能使用grep,egrep或awk,請考慮數據庫 - 因爲這正是數據庫首先發明的原因。 – Ingo 2013-02-25 19:36:03
我認爲這將有助於提供更多的細節。多久添加一次以及添加多少次?一天一次?一天幾千?連續地,在白天每秒幾秒?像這樣的東西。然後,每天有多少次搜索? 10,1000,100000?搜索單個項目還是組?它有多大?百萬?十億?什麼? – 2013-02-25 19:36:05