2012-08-15 107 views
0

我有一些統計數據。一些數據非常分散到大部分數據集中,如下所示。我想要做的是最小化數據集中高度分散數據的影響。我想計算數據集的平均值,該數據集在我的情況下已經最小化了分散數據的影響。統計數據分析中的分散數據集

My data set is as like this: 
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42. 

如下面圖所示: One data is scattered as shown below(say)

我需要的平均值這是不46.3但更接近其他的數據分佈。 其實,我想在平均計算中最小化89.23 & 328.42的影響。 在此先感謝

+0

嘗試在http://math.stackexchange.com或http://stats.stackexchange.com上詢問。您的問題與編程無關,您可能會在其他站點獲得更快的響應 – mathematician1975 2012-08-15 14:14:57

+0

已搜索很多次。但找不到合適的解決方案。 我正在從事項目,統計數據分析。這是我最近幾個月以來面臨的一個問題。無論如何感謝@ mathematician1975 – ln2khanal 2012-08-15 14:23:48

+0

特別是這個網站編程問題作爲@ mathematician1975提到。但我認爲這似乎也是關於數學,統計和編程方面的一個很好的概念問題。希望有一些極客會給出非常明智的答案。 :) – 2012-08-15 15:53:03

回答

2

你可能會注意到,你真的不想要的意思。這裏的問題是您爲數據假設的分佈與實際數據不同。如果您嘗試對這些數據進行正態分佈,則會得到不好的結果。你可以嘗試去適應像這個數據那樣的重尾分佈。如果您想使用正態分佈,則需要過濾掉非正常樣本。如果你覺得你知道標準偏差應該是什麼,你可以從上面的樣本中刪除所有的東西,比如說偏離平均值3個標準偏差(數字3將取決於樣本大小)。這個過程可以遞歸地完成,以消除非正常的樣本,直到您對標準偏差的異常值的大小感到滿意爲止。

+0

我不能過濾掉這些數據,這是它的主要問題。因爲將來,由於每個樣本數據被推送給人羣,因此目前的異常值可能不是異常值。無論如何,感謝您的回覆。 – ln2khanal 2012-08-15 17:42:41

+0

假設您的問題是從具有流式數據的普通模型中刪除離羣值。你可以開始過濾後,你有一個重要的統計樣本......說100分......稱之爲核心樣本。有100分後,在覈心上執行上述步驟。然後你監測更多的數據點並用新的點數來更新核心。防止不符合核心分佈的新數據。這將允許核心的統計特性緩慢變化。 – fodon 2012-08-15 22:24:25

+0

太棒了!我們正在處理日誌文件聚類項目。根據應用程序開發人員的不同,日誌消息以破碎的英文書寫在處理現有的英語字典庫時,有意義的單詞可被稱爲異常值。所以,我們所做的就是爲即將發佈的消息創建一個字典包。在這裏舉一個例子: message1:9月26日橋內核:設備usb0進入混雜模式 message2:9月26日橋內核:設備usb0左混雜模式 上述消息被放置在一個因爲左和輸入有較低的計數與其他字。他們似乎是異常的。 – ln2khanal 2012-08-16 01:03:32

2

不幸的是,一組數據的意思就是 - 平均值。你確定這一點實際上是一個異常?你的數據包含了關於聚類的看似單一的異常值,但如果你看看你的圖,你會發現這些數據似乎有線性關係,那麼它真的是異常值?

如果此讀數確實對您造成問題,您可以將其完全移除。除此之外,我可以向你建議的唯一的事情是計算某種加權平均值,而不是真實的平均值http://en.wikipedia.org/wiki/Weighted_mean。這樣,您可以在計算平均值時指定較低的權重(儘管如何爲重量選擇值是另一回事)。這與加權迴歸類似,其中特定數據點具有較少的與迴歸擬合相關的權重(可能由於例如某些點的不可靠性)http://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)#Weighted_linear_least_squares

希望這會有所幫助,或者至少會爲您提供一些指向其他可嘗試追求的途徑。

+0

我試圖實現加權平均值,但真正地說,還沒有申請!但是,目前我沒有可以用作體重的任何因素。 我會盡快與您的建議一起嘗試,如果我能找到您的概念解決方案,我會回覆。感謝您的回覆。 – ln2khanal 2012-08-15 17:51:25