2009-09-24 96 views
4

我正在做一些工作,處理某些月份某些家庭審批的統計數據。我希望能夠顯示趨勢 - 也就是說,自上個月以來哪些區域出現較大幅度的相對增加或減少。在計算趨勢時,您如何解釋樣本量較小?

我的第一個幼稚的做法是隻計算兩個月份之間的百分比變化,但有問題,當數據量非常低 - 在所有的任何變化被放大:

// diff = (new - old)/old 
    Area  | June | July | Diff | 
--------------|--------|--------|--------| 
South Sydney | 427 | 530 | +24% | 
North Sydney | 167 | 143 | -14% | 
Dubbo   |  1 |  3 | +200% | 

我不想只是忽略任何區域或價值作爲異常值,但我不希望達博每月增加2個,以超過南悉尼的103個增幅。有沒有更好的方程可以用來顯示更多有用的趨勢信息?

這些數據最終被繪製在Google地圖上。在第一次嘗試中,我只是將差異轉換爲「熱圖顏色」(藍色 - 減少,綠色 - 不變,紅色增加)。也許使用其他度量標準來改變每個區域的視圖可能是一個解決方案,例如,根據批准總數或類似的方式更改Alpha通道,在這種情況下,Dubbo將是鮮紅色,但非常透明,而南悉尼將更接近黃色但非常不透明。

有關顯示此數據的最佳方式的任何想法?

+0

統計,數據分析和定量顯示不是編程*本身*,但它們是有時交給程序員的問題。關於後面的內容的經典參考資料:http://www.edwardtufte.com/tufte/books_vdqi,值得一讀的人誰*必須顯示數據。即使你只使用excel。 – dmckee 2009-09-24 13:31:32

回答

3

這實在是一個統計問題。我不是一個統計學家,但我懷疑,答案是沿線好了,你有沒有數據 - 你怎麼expect‽

也許你可以與附近的區域合併達博?你已經將你的數據切分得足夠小,以至於你的信號已經低於噪聲。

你也可能只是不顯示達博,或爲沒有足夠的數據做一個顏色。

+1

+1對於interrobang – nickf 2009-09-24 06:57:32

0

對於熱圖,您通常會試圖顯示易於同化的信息。任何過於複雜的東西都可能會適得其反。對於達博來說,事實上你沒有數據來得出關於它的任何肯定的結論,所以我會把它染成白色,比如說。你也可以用差異/當前值來標記它。

我認爲這可能會誤導用戶。

1

我有點像您的透明度想法 - 您對自信的數據不透明,您不確定的數據是透明的。用戶很容易理解,,但它會看起來很混亂

我需要請勿使用熱圖。這是爲了連續的數據,而你有離散的。使用點。顏色表示周圍區域的增加/減少,原始體積與點的大小成比例。

現在用戶如何知道點代表什麼區域? 南悉尼轉換成北悉尼?最佳方法是在點之間添加voronoi-like指示線,但巧妙放置的矩形也可以。

+0

我實際上有每個區域的KML數據,所以我可以準確地映射每個區域的邊界...或者你是否建議忽略它並使用不同的東西? – nickf 2009-09-24 11:06:51

1

如果你碰巧有每個地區的單位面積,如sq。km,您可以通過計算家庭批准/ km^2來標準化您的數據,以獲得家庭審批密度並將其用於您的公式中,而不是家庭審批的次數。這是解決問題,如果達博包含較少的家庭批准,那麼其他地區由於其規模。如果有的話,你也可以通過人口標準化,以獲得每個人的家庭批准數量。

1

也許你可以使用總數。添加舊= 595,新= 676,差= 13.6%的所有舊值和新值。然後根據三個地方給出的+ 17.3%/ -4.0%/ + 0.3%計算出這些變化。

5

調查統計的意義。這可以像假設計數統計一樣簡單。

在非常簡單的頭腦版本,那東西你劇情

(A_2 - A_1)/sqrt(A_2 + A_1) 

即變化超過1 Sigma在簡單的計數統計。

這使得如上圖的樣子:

Area Reduced difference 
-------------------------- 
S.S. +3.3 
N.S. -1.3 
D.  +1.0 

這被解釋爲意味着南悉尼經歷了顯著(即重要的,並且可能涉及到一個真正的根本原因)增加,而悉尼北部和達博感到相對較小的變化,可能會或可能不會指向一種趨勢。經驗法則

  • 1西格瑪變化只是噪聲
  • 3西格瑪變化可能指向一個根本原因(因此一個趨勢的期望)
  • 5西格瑪改變幾乎肯定指向一個趨勢

利率非常低的地區(如Dubbo)仍然是不穩定的,但它們不會壓倒顯示器。

0

我會高度推薦與分層模型(即,局部池)去。 Gelman和Hill使用迴歸和多級/分層模型進行數據分析是該主題的優秀資源。

0

您可以使用像Fischer的精確測試http://en.wikipedia.org/wiki/Fisher%27s_exact_test這樣的精確測試,或者使用sudent的t檢驗http://en.wikipedia.org/wiki/Student%27s_t-test,這兩個測試都是爲低樣本量設計的。

作爲一個說明,t檢驗與z檢驗幾乎相同,但在t檢驗中,您不必知道標準偏差,也不需要像對待做了一個z-測試。

由於中心極限定理http://en.wikipedia.org/wiki/Central_limit_theorem(在正式情況下,您只需要底層分佈X具有有限的方差),因此您可以在99.99%的案例中無需任何理由應用az或t檢驗。您不需要爲Fisher要麼測試,要麼確切,並且不做任何假設。