scikit-learn

    0熱度

    2回答

    我給出的這個數據集: https://archive.ics.uci.edu/ml/machine-learning-databases/car/car.data 我基於這樣的事實,它擁有最大的信息增益,以獲得最佳的功能。我正在手動做。但是有沒有一種方法可以使用sklearn或其他庫來計算它? 只是爲了參考我寫這段代碼: false_count=0.0; true_count=0.0; t

    0熱度

    1回答

    我試圖實現一個模型,該模型需要167個分類變量(0或1)的數組,並輸出0和1之間的估計值。超過300個數據點可用。使用基本模型時,下面 的樣板工程: classifier = Sequential() classifier.add(Dense(units = 80, kernel_initializer = 'uniform', activation = 'relu', input_dim =

    4熱度

    2回答

    我工作的一個Python桌面應用程序。這個應用程序做了一些預測。現在我使用python腳本訓練我sklearn模型,該模型的參數保存在YAML文件的字典。然後,我將這個yaml構建到我的python應用程序中。然後,當我使用應用程序時,將使用字典中的參數重新創建模型。我意識到,擁有不同版本sklearn的人會遇到錯誤。我想救我的模型處於困境之中的文件,但在這種情況下,當產生了應用程序的機器上運行不

    0熱度

    1回答

    我目前在scikit-learn中使用LogisticRegression來解決多類分類問題。我已經決定使用LogisticRegression,因爲我已經閱讀了幾篇文章,將它描述爲一個經過良好校準的算法,並根據它返回的預測概率進行了描述。 對於分類器的每個結果,我檢查其預測概率以及分類觀察與具有相同決策等級的訓練集中其餘示例之間的距離。 我感到驚訝的是,即使一個類已經被預測具有90%以上的置信度

    1熱度

    1回答

    我有一個包含二元分類問題的不平衡數據集。我構建了隨機森林分類器並使用了10次k折交叉驗證褶皺。 kfold = model_selection.KFold(n_splits=10, random_state=42) model=RandomForestClassifier(n_estimators=50) 我被錄取結果 print("Accuracy: %.3f%% (%.3f%%)") %

    0熱度

    1回答

    我有4個不同的數據集,每個數據集都包含屬於兩個類別之一的二維樣本:1或2.每個樣本的類別標籤(1或2)位於最後一列。第一列和第二列包含表示樣本的2D點的座標。我的任務是, 對於K-NN找到k的最佳值,並將其與那些1-NN的使用Scikit 我是新來的機器學習和python比較。請讓我知道如何找到最好的k,並根據哪個衡量標準選擇最好的k。

    0熱度

    1回答

    我有CountVectorizer和CharNGramAnalyzer之間的混淆。根據我的理解, CountVectorizer構建一個計數矩陣,其中行是出現計數的不同詞考慮到高維稀疏性。 CharNGramAnalyzer構建一個計數矩陣,其中行是不同字符出現次數的計數。由於它不考慮文字,因此不需要知道單詞之間的分隔,並且適用於英語以外的語言。 我對我的理解是否正確?如果不是,我想要一個詳細的解

    -1熱度

    1回答

    在KNN (K nearest neighbour)分類器中,如果選擇K的偶數值,那麼多數投票規則或歐幾里得距離規則中的預測會是什麼。例如,如果有3班說 虹膜setosa 虹膜雲芝 虹膜弗吉尼亞 現在說我們的n_neighbors = 6價值。多數票投票規則有相當多的機會獲得平局結果?在大多數可視化中,這個地區都以白色表示,說不能做出任何決定。但是對於領帶的實際預測是什麼?這個問題很難模擬,相當概

    -1熱度

    1回答

    我成功地在我的本地主機上運行scikit學習預測模型,現在我有興趣將此模型添加到我的燒瓶靜態網站。我怎樣才能做到這一點?有什麼建議麼?我基本上想在flask靜態網站上添加一個鏈接到預測模型。 例如 靜態的網站在本地主機上運行:5000具有下面的代碼 @app.route('/index') def index(): return render_template('index.html'

    1熱度

    1回答

    我有一組標記的訓練數據,我正在訓練ML算法來預測標籤。但是,我的一些數據點比其他數據點更重要。或者,類似地,這些點比其他點的不確定性更少。 是否有一種通用方法在模型中爲每個訓練點添加重要性代表權重?是否有一些具有這種能力的具體模型,而其他的則不是? 我可以想象複製這些點(也許稍微塗抹它們的特徵以避免精確重複)或下采樣不太重要的點。有沒有更好的方法來解決這個問題?