統計數據分析中的分散數據集

我有一些統計數據。一些數據非常分散到大部分數據集中，如下所示。我想要做的是最小化數據集中高度分散數據的影響。我想計算數據集的平均值，該數據集在我的情況下已經最小化了分散數據的影響。統計數據分析中的分散數據集

My data set is as like this: 
10.02, 11, 9.12, 7.89, 10.5, 11.3, 10.9, 12, 8.99, 89.23, 328.42.

如下面圖所示： One data is scattered as shown below(say)

我需要的平均值這是不46.3但更接近其他的數據分佈。其實，我想在平均計算中最小化89.23 & 328.42的影響。在此先感謝

來源

2012-08-15 ln2khanal

嘗試在http://math.stackexchange.com或http://stats.stackexchange.com上詢問。您的問題與編程無關，您可能會在其他站點獲得更快的響應 – mathematician1975 2012-08-15 14:14:57

已搜索很多次。但找不到合適的解決方案。我正在從事項目，統計數據分析。這是我最近幾個月以來面臨的一個問題。無論如何感謝@ mathematician1975 – ln2khanal 2012-08-15 14:23:48

特別是這個網站編程問題作爲@ mathematician1975提到。但我認爲這似乎也是關於數學，統計和編程方面的一個很好的概念問題。希望有一些極客會給出非常明智的答案。 :) – 2012-08-15 15:53:03

你可能會注意到，你真的不想要的意思。這裏的問題是您爲數據假設的分佈與實際數據不同。如果您嘗試對這些數據進行正態分佈，則會得到不好的結果。你可以嘗試去適應像這個數據那樣的重尾分佈。如果您想使用正態分佈，則需要過濾掉非正常樣本。如果你覺得你知道標準偏差應該是什麼，你可以從上面的樣本中刪除所有的東西，比如說偏離平均值3個標準偏差（數字3將取決於樣本大小）。這個過程可以遞歸地完成，以消除非正常的樣本，直到您對標準偏差的異常值的大小感到滿意爲止。

來源

2012-08-15 15:34:26 fodon

我不能過濾掉這些數據，這是它的主要問題。因爲將來，由於每個樣本數據被推送給人羣，因此目前的異常值可能不是異常值。無論如何，感謝您的回覆。 – ln2khanal 2012-08-15 17:42:41

假設您的問題是從具有流式數據的普通模型中刪除離羣值。你可以開始過濾後，你有一個重要的統計樣本......說100分......稱之爲核心樣本。有100分後，在覈心上執行上述步驟。然後你監測更多的數據點並用新的點數來更新核心。防止不符合核心分佈的新數據。這將允許核心的統計特性緩慢變化。 – fodon 2012-08-15 22:24:25

太棒了！我們正在處理日誌文件聚類項目。根據應用程序開發人員的不同，日誌消息以破碎的英文書寫在處理現有的英語字典庫時，有意義的單詞可被稱爲異常值。所以，我們所做的就是爲即將發佈的消息創建一個字典包。在這裏舉一個例子： message1：9月26日橋內核：設備usb0進入混雜模式 message2：9月26日橋內核：設備usb0左混雜模式上述消息被放置在一個因爲左和輸入有較低的計數與其他字。他們似乎是異常的。 – ln2khanal 2012-08-16 01:03:32

不幸的是，一組數據的意思就是 - 平均值。你確定這一點實際上是一個異常？你的數據包含了關於聚類的看似單一的異常值，但如果你看看你的圖，你會發現這些數據似乎有線性關係，那麼它真的是異常值？

如果此讀數確實對您造成問題，您可以將其完全移除。除此之外，我可以向你建議的唯一的事情是計算某種加權平均值，而不是真實的平均值http://en.wikipedia.org/wiki/Weighted_mean。這樣，您可以在計算平均值時指定較低的權重（儘管如何爲重量選擇值是另一回事）。這與加權迴歸類似，其中特定數據點具有較少的與迴歸擬合相關的權重（可能由於例如某些點的不可靠性）http://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)#Weighted_linear_least_squares。

希望這會有所幫助，或者至少會爲您提供一些指向其他可嘗試追求的途徑。

來源

2012-08-15 16:09:56 mathematician1975

我試圖實現加權平均值，但真正地說，還沒有申請！但是，目前我沒有可以用作體重的任何因素。我會盡快與您的建議一起嘗試，如果我能找到您的概念解決方案，我會回覆。感謝您的回覆。 – ln2khanal 2012-08-15 17:51:25

統計數據分析中的分散數據集

回答

相關問題