2013-03-01 108 views
2

有一個數據集,其中包含彙總數據 - 彙總到各個維度,並且小到每小時級別。主要的措施是速度,它只是文件大小除以持續時間。如何彙總/彙總百分比度量

要求是查看百分位數,中位數和平均/平均值彙總。

均很簡單,因爲我們只需創建在MDX計算的度量,然後它在所有聚合級別,即每日/每月等

然而百分位和中位數是很難的。有什麼辦法可以對這些功能進行計算,這些功能會正確地捲起來?當我們讀取原始數據時,我們可以在ETL中添加百分比速度作爲列,但是我們仍然需要找到一種方法,然後將其進一步卷積。

什麼是適當的方式來捲起這些類型的措施?尋求百分位數的情況並不少見,所以當我環顧四周時,我很驚訝地沒有看到這方面的信息。

也許唯一的方法是將各種彙總表放在正確的級別,並進行正確的計算,然後讓mondrian將它們用作agg表?或者更糟糕的情況下有多個立方體(!)

回答

1

好吧,所以事實證明你不能捲起百分點(因此中位數僅僅是第50百分位數)。我瞭解其他人有這個問題,請看這裏來自Kasper的推文: https://twitter.com/kaspersor/status/308189242788560896

因此,我們的解決方案是存儲相關統計信息的幾個不同的聚合表,以及存儲預先計算的百分位數和中位數統計信息的主要(已彙總的)事實數據表。