在計算趨勢時，您如何解釋樣本量較小？

我正在做一些工作，處理某些月份某些家庭審批的統計數據。我希望能夠顯示趨勢 - 也就是說，自上個月以來哪些區域出現較大幅度的相對增加或減少。在計算趨勢時，您如何解釋樣本量較小？

我的第一個幼稚的做法是隻計算兩個月份之間的百分比變化，但有問題，當數據量非常低 - 在所有的任何變化被放大：

// diff = (new - old)/old 
    Area  | June | July | Diff | 
--------------|--------|--------|--------| 
South Sydney | 427 | 530 | +24% | 
North Sydney | 167 | 143 | -14% | 
Dubbo   |  1 |  3 | +200% |

我不想只是忽略任何區域或價值作爲異常值，但我不希望達博每月增加2個，以超過南悉尼的103個增幅。有沒有更好的方程可以用來顯示更多有用的趨勢信息？

這些數據最終被繪製在Google地圖上。在第一次嘗試中，我只是將差異轉換爲「熱圖顏色」（藍色 - 減少，綠色 - 不變，紅色增加）。也許使用其他度量標準來改變每個區域的視圖可能是一個解決方案，例如，根據批准總數或類似的方式更改Alpha通道，在這種情況下，Dubbo將是鮮紅色，但非常透明，而南悉尼將更接近黃色但非常不透明。

有關顯示此數據的最佳方式的任何想法？

來源

2009-09-24 nickf

統計，數據分析和定量顯示不是編程*本身*，但它們是有時交給程序員的問題。關於後面的內容的經典參考資料：http：//www.edwardtufte.com/tufte/books_vdqi，值得一讀的人誰*必須顯示數據。即使你只使用excel。 – dmckee 2009-09-24 13:31:32

這實在是一個統計問題。我不是一個統計學家，但我懷疑，答案是沿線好了，你有沒有數據 - 你怎麼expect‽

也許你可以與附近的區域合併達博？你已經將你的數據切分得足夠小，以至於你的信號已經低於噪聲。

你也可能只是不顯示達博，或爲沒有足夠的數據做一個顏色。

來源

2009-09-24 06:53:08 derobert

+1對於interrobang – nickf 2009-09-24 06:57:32

對於熱圖，您通常會試圖顯示易於同化的信息。任何過於複雜的東西都可能會適得其反。對於達博來說，事實上你沒有數據來得出關於它的任何肯定的結論，所以我會把它染成白色，比如說。你也可以用差異/當前值來標記它。

我認爲這可能會誤導用戶。

來源

2009-09-24 06:53:48 dommer

我有點像您的透明度想法 - 您對自信的數據不透明，您不確定的數據是透明的。用戶很容易理解，，但它會看起來很混亂。

我需要：請勿使用熱圖。這是爲了連續的數據，而你有離散的。使用點。顏色表示周圍區域的增加/減少，原始體積與點的大小成比例。

現在用戶如何知道點代表什麼區域？ 南悉尼轉換成北悉尼？最佳方法是在點之間添加voronoi-like指示線，但巧妙放置的矩形也可以。

來源

2009-09-24 07:09:49 Marcin

我實際上有每個區域的KML數據，所以我可以準確地映射每個區域的邊界...或者你是否建議忽略它並使用不同的東西？ – nickf 2009-09-24 11:06:51

如果你碰巧有每個地區的單位面積，如sq。km，您可以通過計算家庭批准/ km^2來標準化您的數據，以獲得家庭審批密度並將其用於您的公式中，而不是家庭審批的次數。這是解決問題，如果達博包含較少的家庭批准，那麼其他地區由於其規模。如果有的話，你也可以通過人口標準化，以獲得每個人的家庭批准數量。

來源

2009-09-24 07:23:06 Andrew

也許你可以使用總數。添加舊= 595，新= 676，差= 13.6％的所有舊值和新值。然後根據三個地方給出的+ 17.3％/ -4.0％/ + 0.3％計算出這些變化。

來源

2009-09-24 08:29:36

調查統計的意義。這可以像假設計數統計一樣簡單。

在非常簡單的頭腦版本，那東西你劇情

(A_2 - A_1)/sqrt(A_2 + A_1)

即變化超過1 Sigma在簡單的計數統計。

這使得如上圖的樣子：

Area Reduced difference 
-------------------------- 
S.S. +3.3 
N.S. -1.3 
D.  +1.0

這被解釋爲意味着南悉尼經歷了顯著（即重要的，並且可能涉及到一個真正的根本原因）增加，而悉尼北部和達博感到相對較小的變化，可能會或可能不會指向一種趨勢。經驗法則

1西格瑪變化只是噪聲
3西格瑪變化可能指向一個根本原因（因此一個趨勢的期望）
5西格瑪改變幾乎肯定指向一個趨勢

利率非常低的地區（如Dubbo）仍然是不穩定的，但它們不會壓倒顯示器。

來源

2009-09-24 13:27:16 dmckee

我會高度推薦與分層模型（即，局部池）去。 Gelman和Hill使用迴歸和多級/分層模型進行數據分析是該主題的優秀資源。

來源

2009-09-24 17:31:30

您可以使用像Fischer的精確測試http://en.wikipedia.org/wiki/Fisher%27s_exact_test這樣的精確測試，或者使用sudent的t檢驗http://en.wikipedia.org/wiki/Student%27s_t-test，這兩個測試都是爲低樣本量設計的。

作爲一個說明，t檢驗與z檢驗幾乎相同，但在t檢驗中，您不必知道標準偏差，也不需要像對待做了一個z-測試。

由於中心極限定理http://en.wikipedia.org/wiki/Central_limit_theorem（在正式情況下，您只需要底層分佈X具有有限的方差），因此您可以在99.99％的案例中無需任何理由應用az或t檢驗。您不需要爲Fisher要麼測試，要麼確切，並且不做任何假設。

來源

2009-09-25 17:11:00 ldog

在計算趨勢時，您如何解釋樣本量較小？

回答

相關問題