scikit-learn

    1熱度

    1回答

    我有一個特徵陣列,其中包含不同類型的值: >>> features = train_df.values >>> [x for x in features] [True, array([2, 0, 0, ..., 0, 0, 0]), False, False, 17, 1, 10, array([0, 0, 0, ..., 0, 0, 0])] 我想產生包含所有上述特徵的串

    -1熱度

    1回答

    我有一個數據集,我想爲它建立一個分類模型。鑑於scikit-learn提供了混淆矩陣實現confusion_matrix(test_y, pred_r),我想用它來計算我的模型的準確性,而不是直接使用.predict。爲此,我應該只查找false positive或true positive或兩者的組合? 謝謝

    -1熱度

    1回答

    我是機器學習的新手請原諒我,如果我愚蠢。 我有一個包含22個屬性和30000個數據點的traindata.csv文件。 我必須訓練我的模型(不是特定的算法),並預測testdata.csv文件中的20000個數據點,我必須使用我的訓練模型進行預測。 在traindata.csv中,'0'和'1'類標籤的比例爲5:1。 如果我用這整列火車數據訓練我的模型,我的模型顯示了一些偏向於預測0的比例。 我以

    -1熱度

    1回答

    在試圖瞭解決策樹如何scikit表現爲onehot編碼數據我有以下幾點: X = [[1,0,1] , [1,1,1]] Y = [1,2] clf = tree.DecisionTreeClassifier(criterion='entropy') clf = clf.fit(X, Y) print(clf.predict([1,0,1])) print(clf.predict([

    0熱度

    1回答

    比方說,我有一個熊貓的數據幀,我想正常化只有某些屬性,但不能使用此功能的幫助下,整個數據幀: preprocessing.normalize ,我想就地這些標準化列到我的數據框。但我不能因爲它有不同的格式(numpy數組)。 我已經看到了怎麼辦正常化其他方式,例如我不喜歡這樣的: s0 = X.iloc[:,13:15] X.iloc[:,13:15] = (s0 - s0.mean())/

    2熱度

    3回答

    經常利益相關者不希望有一個很好的預測黑箱模型;他們希望瞭解有關功能的深入瞭解,以便他們能夠向其他人解釋。 當我們檢查xgboost或sklearn漸變增強模型的特徵重要性時,我們可以確定特徵的重要性......但我們不明白爲什麼這些特徵很重要,是嗎? 有沒有辦法解釋不僅是什麼功能重要,而且爲什麼它們很重要? 我被告知使用shap但即使運行一些樣板實例拋出錯誤,所以我在尋找替代品(或者甚至只是一個程

    0熱度

    1回答

    我想將我的圖像分成更小的窗口,這些窗口將發送到神經網絡進行訓練(例如面部檢測器訓練)。我在Tensorflow中找到tf.extract_image_patches方法,這看起來正是我需要的。 This question解釋它的功能。 的例子有示出的給定(1x10x10x1)(數字1通過100按順序)輸入ksize是(1, 3, 3, 1)(和strides(1, 5, 5, 1))。輸出是這樣的

    0熱度

    1回答

    使用Spark_sklearn執行嵌套交叉驗證GridSearchCV作爲內部cv和sklearn cross_validate/cross_val_score作爲外部cv結果「看起來您試圖從廣播變量引用SparkContext ,行動或轉型「的錯誤。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

    0熱度

    1回答

    我正在創建帶標記類的神經網絡,它們是二進制值列表,並且有1167個類。我想根據預測概率,以利用MLP.predict_proba()到輸出的前5類,但輸出的是NP陣列的概率爲每個類只由索引值標記,即 enter image description here 我想找出哪些類與這些概率相關聯,並且預測函數能夠正確輸出代表它所預測類的二進制列表。無論如何,我可以手動將這些類標記爲這些唯一的二進制列表嗎?

    0熱度

    1回答

    在下面的代碼中,數據是一個句子列表,而「y」列(data.metagroup)是一個類列表 - 一個直接的分類問題。 問題: 我想用partial_fit與MultinomialNB分類。 基礎上的文檔,我傳遞一個稀疏向量X(稱爲xtrain),爲y簡單的串聯(稱爲ytrain),以及用於np.array其classes是所有可能的類的列表。 目標是最終使用xtrain和ytrain的子集,但我必