statistics

    -1熱度

    1回答

    我有一個數據集,每個樣本具有330個樣本和27個特徵,具有Logistic迴歸的二元類問題。 根據「規則如果十」我需要包括每個功能至少10個事件。儘管如此,我有一個不平衡的數據集,其中20%爲正面類,80%爲負面類。 這給我只有70個事件,允許大約只有7/8特徵被包括在Logistic模型中。 我想評估所有的功能作爲預測,我不想手動選擇任何功能。 那麼你會建議什麼?我應該做所有可能的7個功能組合嗎

    0熱度

    1回答

    我正在使用Apache DescriptiveStatistics來計算統計信息,但存在問題。我有一堆實體生成值,每次迭代時我都想更新與實體關聯的值。 比如我可以在整個城市的1000個不同的地點跟蹤當前的溫度,我想能夠計算爲城市的一些平均氣溫: for (Location location: locations) { double temperature = location.getCu

    0熱度

    1回答

    我目前正在嘗試使用R來實現DBSCAN算法以查找我的數據中的離羣值。爲了初始化參數(特別是ε),我必須在我的示例中繪製到第k個鄰居(我選擇k = 3)的遞增排序順序的距離,並查看肘部在哪裏選擇ε的正確值。 正如我所說我使用R統計語言,我發現了兩種不同的函數,計算第k個鄰居nndist()和kNNdist()的距離。如果我默認情況下很好理解,它使用歐幾里德距離。但是在我的數據中,這些函數並不顯示相同

    -1熱度

    1回答

    我對FinTech公司工作。我們爲客戶提供貸款。希望申請貸款的客戶必須在我們的應用程序中填寫一些信息,其中一個信息是薪水信息。使用網頁瀏覽功能,我們能夠在上個月的最近3-7個月內獲取我們客戶的銀行交易數據。 使用任何統計或機器學習技術如何,如果工資總額(或幾乎同時)在客戶銀行交易數據說我很容易地發現?我應該爲每個客戶制定一個模型(邏輯),還是應該只有一個模型適用於所有客戶? 請指教

    0熱度

    1回答

    我正在研究測量方向盤絕對角度的方向盤角度傳感器。由於轉向角度傳感器使用齒輪和幾個完全與硬件相關的接頭,所以儘管由於機械部件的使用以及由於某些環境和道路條件的緣故,隨着時間的推移開始校準,但傳感器的值中會出現一些誤差例如偏移,相位變化,信號變平,延遲)。 簡而言之,由於測量中的這些誤差,我們的目標被分散了意味着如果我正在查看速度與時間曲線,所以如果在原始或校準傳感器中短時間接近理想狀態傳感器,我的速

    0熱度

    2回答

    我在閱讀關於交叉驗證以及如何使用它來選擇最佳模型和估計參數,但我並沒有真正理解它的含義。 假設我建立一個線性迴歸模型並進行10倍交叉驗證,我認爲這10個系統中的每一個都有不同的係數值,現在來自10個不同的系統值,我應該選擇它作爲我的最終模型或估計參數。 或者我們是否僅使用交叉驗證來尋找平均誤差(本例中爲10個模型的平均值)並與另一個模型進行比較?

    0熱度

    1回答

    我希望有人可以提供幫助。我有一個時間序列: 243.7206226 605.3606113 605.7932288 844.0799284 261.9561457 586.7027651 185.5579002 320.9357321 954.6565384 82.62499004 60.04110858 337.3290087 285.5276859 48.925268

    3熱度

    2回答

    我想通過多個ID來計算單個數據框中數據的滾動平均值。看到我下面的示例數據集。 date <- as.Date(c("2015-02-01", "2015-02-02", "2015-02-03", "2015-02-04", "2015-02-05", "2015-02-06", "2015-02-07", "2015-02-08", "2015-02-09", "20

    1熱度

    2回答

    我想對我的數據集中的幾個變量做一個非常簡單的線性迴歸分析,並發現R和SAS正在爲其模型輸出非常不同的值適合。我試圖迴歸 spending ~ tenure (in months) 在SAS,我的代碼看起來像 proc reg data=model_data; model spending = tenure; output out=&outfile r=resid stdi=stdi_met

    0熱度

    1回答

    我試圖根據Year,Month或Date級別聚合Profit。我正在閱讀另一個文件的聚合級別,並希望將該文件中的值傳遞給聚合函數,但它會引發錯誤。 library(lubridate) parameter <- read.csv("Parameter.csv",header = F,col.names = c("Option","Value")) head(parameter) order