scikit-learn

1熱度

1回答

我有一個特徵陣列，其中包含不同類型的值： >>> features = train_df.values >>> [x for x in features] [True, array([2, 0, 0, ..., 0, 0, 0]), False, False, 17, 1, 10, array([0, 0, 0, ..., 0, 0, 0])] 我想產生包含所有上述特徵的串

-1熱度

1回答

使用混淆矩陣來找到模型精度而不是內置它的預測方法

我有一個數據集，我想爲它建立一個分類模型。鑑於scikit-learn提供了混淆矩陣實現confusion_matrix(test_y, pred_r)，我想用它來計算我的模型的準確性，而不是直接使用.predict。爲此，我應該只查找false positive或true positive或兩者的組合？謝謝

-1熱度

1回答

在機器學習（二元分類）中處理我的數據的最佳技巧？

我是機器學習的新手請原諒我，如果我愚蠢。我有一個包含22個屬性和30000個數據點的traindata.csv文件。我必須訓練我的模型（不是特定的算法），並預測testdata.csv文件中的20000個數據點，我必須使用我的訓練模型進行預測。在traindata.csv中，'0'和'1'類標籤的比例爲5：1。如果我用這整列火車數據訓練我的模型，我的模型顯示了一些偏向於預測0的比例。我以

-1熱度

1回答

決策樹直覺一個熱編碼數據

在試圖瞭解決策樹如何scikit表現爲onehot編碼數據我有以下幾點： X = [[1,0,1] , [1,1,1]] Y = [1,2] clf = tree.DecisionTreeClassifier(criterion='entropy') clf = clf.fit(X, Y) print(clf.predict([1,0,1])) print(clf.predict([

0熱度

1回答

規範化sklearn

比方說，我有一個熊貓的數據幀，我想正常化只有某些屬性，但不能使用此功能的幫助下，整個數據幀： preprocessing.normalize ，我想就地這些標準化列到我的數據框。但我不能因爲它有不同的格式（numpy數組）。我已經看到了怎麼辦正常化其他方式，例如我不喜歡這樣的： s0 = X.iloc[:,13:15] X.iloc[:,13:15] = (s0 - s0.mean())/

2熱度

3回答

確定爲什麼要素在決策樹模型中很重要

經常利益相關者不希望有一個很好的預測黑箱模型;他們希望瞭解有關功能的深入瞭解，以便他們能夠向其他人解釋。當我們檢查xgboost或sklearn漸變增強模型的特徵重要性時，我們可以確定特徵的重要性......但我們不明白爲什麼這些特徵很重要，是嗎？有沒有辦法解釋不僅是什麼功能重要，而且爲什麼它們很重要？我被告知使用shap但即使運行一些樣板實例拋出錯誤，所以我在尋找替代品（或者甚至只是一個程

0熱度

1回答

什麼是tf.extract_image_patches方法的意思？

我想將我的圖像分成更小的窗口，這些窗口將發送到神經網絡進行訓練（例如面部檢測器訓練）。我在Tensorflow中找到tf.extract_image_patches方法，這看起來正是我需要的。 This question解釋它的功能。的例子有示出的給定(1x10x10x1)（數字1通過100按順序）輸入ksize是(1, 3, 3, 1)（和strides(1, 5, 5, 1)）。輸出是這樣的

0熱度

1回答

使用Spark_sklearn進行嵌套交叉驗證GridSearchCV產生SPARK-5063錯誤

使用Spark_sklearn執行嵌套交叉驗證GridSearchCV作爲內部cv和sklearn cross_validate/cross_val_score作爲外部cv結果「看起來您試圖從廣播變量引用SparkContext ，行動或轉型「的錯誤。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

0熱度

1回答

使用sklearn時搞清楚類的標籤MLP.predict_proba（）函數

我正在創建帶標記類的神經網絡，它們是二進制值列表，並且有1167個類。我想根據預測概率，以利用MLP.predict_proba（）到輸出的前5類，但輸出的是NP陣列的概率爲每個類只由索引值標記，即 enter image description here 我想找出哪些類與這些概率相關聯，並且預測函數能夠正確輸出代表它所預測類的二進制列表。無論如何，我可以手動將這些類標記爲這些唯一的二進制列表嗎？

0熱度

1回答

MultisomialNB分類器中partial_fit的錯誤

在下面的代碼中，數據是一個句子列表，而「y」列（data.metagroup）是一個類列表 - 一個直接的分類問題。問題：我想用partial_fit與MultinomialNB分類。基礎上的文檔，我傳遞一個稀疏向量X（稱爲xtrain），爲y簡單的串聯（稱爲ytrain），以及用於np.array其classes是所有可能的類的列表。目標是最終使用xtrain和ytrain的子集，但我必