2012-06-12 41 views
0

目前我有一個應用程序,用戶上傳文檔(pdfs/excel/word,幾張圖片)。找一個對大數據(Hadoop的MangoDB)解決方案,可以大數據CMS全文搜索

  1. 存儲數千PDF,詞,Excel文件(因爲我們是規模增長過快)

  2. 搜索圖像的元信息

  3. 全文搜索(晴實時)

  4. 快速的檢索

請指教

回答

0

看看Apache Hbase也..你可能會發現它對你的用例很有用..它是一個NOSQL數據庫運行在Hdfs之上,並提供隨機實時讀/寫訪問..你也可以看一下Apache Hive。雖然它不是與Hbase不同的實時處理,但它提供了一個數據倉庫,在Hadoop集羣之上提供SQL接口......你可以在後臺運行Hive作業並保持你的數據處理並準備好提供服務,如果您事先知道處理類型的話。如果您來自SQL背景,這將非常有用。

+0

我已經使用HBase,爲我的其他項目配置單元。HBase是cloumn方向可以用於索引與solr和蜂房是完全無關的在這裏。我正在尋找像Mongo這樣的面向文檔的系統。但我不喜歡這個想法。 –

+0

我沒有說過你應該使用Hive來代替Mongo或類似的東西。如果您想要使用像Terrastore,Apache CouchDB,Amazon SimpleDB等這樣的面向文檔的系統,您可以選擇一種方法 – Tariq