outliers

    0熱度

    2回答

    的離羣值數據集的異常值可以通過單連接方法輕鬆識別。現在我想自動刪除異常值。我的想法是刪除超過指定距離值的數據。這裏是我的代碼以mtcars的示例數據: library(cluster) library(dendextend) cluster<-agnes(mtcars,stand=FALSE,method="single") dend = as.dendrogram(cluster) 在

    2熱度

    1回答

    替換中的所有列的離羣值我有3列的數據幀,用於離 c1,c2,c3 10000,1,2 1,3,4 2,5,6 3,1,122 4,3,4 5,5,6 6,155,6 我想要替換異常值在所有這些是外2西格瑪的列。使用下面的代碼,我可以創建一個沒有異常值的數據框。 df[df.apply(lambda x: np.abs(x - x.mean())/x.std() < 2).all(

    0熱度

    1回答

    我正在使用DBSCAN對數據集執行聚類。我認爲這是因爲在plt.plot()中傳遞給markerfacecolor的顏色參數不是單個值。請讓我知道如果我在這裏錯了。我的功能是緯度,經度,speed_mph,speedlimit_mph,vehicle_id,driver_id。 這裏是我的集羣代碼 dbsc = DBSCAN(eps = .5, min_samples = 5).fit(df_co

    0熱度

    1回答

    我有一個用於快速傅立葉變換信號的DataFrame。 有一列頻率爲Hz,另一列爲相應的幅度。 我讀過幾年前發佈的一篇文章,您可以使用簡單的布爾函數來排除或僅包含最終數據框中高於或低於幾個標準偏差的異常值。 df = pd.DataFrame({'Data':np.random.normal(size=200)}) # example dataset of normally distributed

    -1熱度

    1回答

    我的數據框在每個列/變量中有許多異常值。我使用Boxplot/IQR截斷值將它們移除了75%/ 25%。我拿出每一列,並從中刪除異常值。因此,每列中都有不同數量的值。現在我想將那些沒有任何離羣值的所有NEW變量組合到單個數據幀中。數據框中出現此錯誤。我該如何解決這個問題?因爲,我必須在新數據框上進行邏輯迴歸。我嘗試了cbind.data.frame,然後與rbind類似,但這並不能解決問題。 下面

    -1熱度

    1回答

    什麼是從熊貓數據框中移除異常值的有效方法? 我有一個熊貓數據框,我需要從數據框中刪除異常點。 X1 X2 X3 X4 228.0 4474.91836735 3507.15151515 6625.0 77.0 468.0 582.0 549.0 160.0 9.0 3507.15151515 6625.0 36.0 250.0 3507.15151515 6

    0熱度

    1回答

    我在OBIEE 12C創建的表是這樣的: 現在我想以紅色是高於平均值的2個標準偏差值的顏色。 我想爲每行的每個值(例如A,a1,a1.1)做這件事。 預先感謝您的幫助, 安德烈

    0熱度

    1回答

    我已經在迴歸模型上運行了OutlierTest並將其分配給了一個變量。該表的class也是outlierTest。我想從該表中提取行索引。 我無法將表格轉換爲data.frame或matrix。 > library(car) > b <- outlierTest(fit_train2) > b rstudent unadjusted p-value Bonferonni p 4

    1熱度

    1回答

    我有一個數據框和數字和字符串列。 import numpy as np import pandas as pd from scipy.stats import zscore data = {'c1' : [1., 2., 3., 4.], 'c2' : [4., 3., 2., 1.], 'c3' : [5., 6., 7000., 8.], 'c4' : [8., 7., 6

    0熱度

    1回答

    我對R非常陌生,正試圖從一個子集中移除異常值以改善GLM。我使用的代碼是: data$sel <- ifelse(data$chol==8.3 & data$whr==1.14 ,(0), (1)) data dim(data) data2 <- subset(data, !(chol==8.3 & whr==1.14)) dim(data2) 我這樣做,但是,當我試圖繪製新的數據圖表