2012-04-22 52 views
3

大數據= 1TB每年增加10%。 模型很簡單..一張桌子有25列。 沒有加入與其他表..使用簡單模型的1TB數據報告/分析數據庫

我希望做的25列的子集..簡單的查詢過濾

我猜一個傳統的SQL存儲與已過濾的列的索引是什麼必要。 Hadoop過度殺毒,因爲這是實時服務,所以不會有意義。蒙戈?像pentaho這樣的雙引擎?

有什麼建議嗎?

+0

任何商業數據倉庫解決方案都可以,例如檢查DB2產品 – 2012-04-22 19:53:00

+0

那你到底做了什麼?它運作良好嗎? – Codek 2012-08-13 11:53:45

+0

我結束了使用http://www.elasticsearch.org/真棒! – user48545 2012-08-22 02:20:11

回答

3

傳統的解決方案似乎確實聽起來很好,除非您已經描述過真正簡單的模型不會有任何重大變化。

NoSQL聽起來不是BI/Reporting的最佳選擇。

獲得一個好的硬件。花時間進行性能測試並構建所有必需的索引。實施適當的新數據上傳策略。根據您的需求和性能測試,在PostgreSQL中實現表級partitioning

P.S.如果我現在有機會從ORACLE/DB2切換,我肯定會選擇PostgreSQL。

1

我建議在這裏調查Infobright - 這是基於列的&壓縮,所以你不會存儲完整的TB,有一個開源版本,所以你可以嘗試一下,而不被一堆銷售人員調用但是最後一次我看到OSS版本丟失了一些非常有用的東西,所以你可能最終需要許可證)。上次我試了一下,它看起來像MySQL這樣的外部世界,所以不難整合。當我最後一次檢查出來時,它是單服務器的,並聲稱在一臺服務器上可以運行高達50TB。我想認爲 Infobright可以坐在Pentaho後面,如果你決定朝那個方向移動的話。

infobright爲此付出的一切與非管理員非常接近 - 沒有人工索引或索引維護。

0

聽起來像一個專欄商店會有所幫助。取決於你如何處理插入,以及是否需要更新。但是,如果您要進行商業廣告,那麼還需要infobright,然後以矢量方式結帳,速度更快,價格也更接近。

如果你想要免費/開源,請查看Luciddb - 沒有太多的文檔,但它的功能非常好!

如果你想得到令人難以置信的速度,然後檢查矢量。我相信它與infobright價格相同,但速度要快得多。