scikit-learn

0熱度

1回答

我使用以下代碼在〜20,000,000個文檔上生成了tf-idf模型，該模型效果很好。問題是，當我嘗試使用計算時的相似性指標linear_kernel內存使用情況炸燬： from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel t

0熱度

1回答

使用Sklearn to和Polynomial Regression來擬合/預測曲線的方程。無限循環錯誤

我提供了一個數據集，我試圖找到一些X和Y數據之間的關係。我希望能夠使用sklearn庫來繪製數據並預測/繪製公式的曲線。然而，我的代碼是停留在一個無限循環，當我嘗試和多項式迴歸模型擬合到我的數據集之後劇情我預測值。的最終目標將是，一旦我有曲線預測/繪我想能夠知道什麼是曲線的整個方程。這是我的代碼。 import numpy as np import matplotlib.pyplot as

-1熱度

3回答

如何處理數值分類變量在python xgboost中存在大量不同的值？

我想解決在python中使用xgboost的迴歸問題。但是我遇到了一個問題。我在很多地方搜索過它，但無法獲得任何具體結果。我有一個食物聚合器的商業模式。我的平臺上的用戶可以從許多不同的餐館訂購。我想使用迴歸模型來預測訂單的ETA（用於在用戶放置它之後在應用上顯示）。我正在考慮在我的訓練模型中使用「restaurant_id」作爲功能。但現在問題是我的平臺上有超過100家餐館。我不能使用它的數字

0熱度

1回答

Scikit學習RandomizedSearchCV不適用於MultinomialNB中的class_prior

我想在MultinomialNB（1）上進行隨機化參數優化。現在我的參數有3個，而不是一個值，因爲它是'class_prior'，而且我有3個類。 from sklearn.naive_bayes import MultinomialNB from sklearn.grid_search import RandomizedSearchCV from scipy.stats import uni

0熱度

1回答

線性迴歸VS閉合形式普通最小二乘在Python

我試圖應用線性迴歸方法用於樣品9與使用python約50特徵的數據集。我曾嘗試不同的方法進行線性迴歸即封閉形式的OLS（普通最小二乘法），LR（線性迴歸），HR（胡貝爾迴歸），NNLS（非負最小二乘法）和他們每個人給出了不同的權重。但我可以得到直覺，爲什麼HR和NNLS有不同的解決方案，但LR和封閉形式的OLS具有相同的目標函數，用於最小化給定樣本中觀察值與由一組特徵的線性函數。由於訓練集是單數

0熱度

1回答

Python機器學習 - 輸入分類數據？

我正在學習使用Python進行機器學習，並瞭解我無法通過模型運行分類數據，並且必須先獲取假人。我的一些分類數據有空值（僅有2個特徵的一小部分）。當我轉換成傻瓜，然後看看我是否缺少值，它總是顯示沒有。我應該事先進行評估嗎？或者我會根據分類數據進行歸類？例如，如果該類別是男性/女性，我不想用最常見的替換空值。我看到，如果這個功能是收入的話，這將會是有意義的，我將會推測缺失的價值。收入是收入，而男性不是

0熱度

1回答

數據在Python

扯皮我有Python中的數據幀DF Age product ------------------ 21 apple 11 orange eighteen mango 35 pineapple 35 122 NA apple 30 -1 我只想年齡數值列，我怎麼會丟棄哪些不是整數的行。同樣在產品中，我只需要字符串，我將如何刪除不是字符串的值。

1熱度

1回答

Gunicorn/flask API暴露sklearn模型不起作用

我似乎無法弄清楚這一點。我有一個使用scikit-learn培訓過的模型，保存到.pkl文件中，並且我想製作一個基於它的預測的API。我已經有了能夠做出預測的代碼，它可以在控制檯/單元測試中正常運行。爲了加速預測，我將分割數據（數千個圖像補丁）並使用joblib/multiprocessing擴展負載。我在設置JOBLIB_START_METHOD=forkserver，因爲如果從multip

0熱度

1回答

'NoneType'對象不支持__init__中的項目分配

我正在學習從Kaggle上的this tutorial機器學習。我嘗試修改項目結構，因此我創建了一個新的.py文件來創建一個新類。這是類： class ModelHelper(object): def __init__(self, model, seed=0, params=None): params['random_state'] = seed # TypeError:

-2熱度

1回答

如何在python中保存單詞數據包？

這裏是我的代碼： sift=cv2.xfeatures2d.SIFT_create() descriptors_unclustered=[] dictionarysize=800 BOW=cv2.BOWKmeansTrainer(dictionarysize) for p in training-paths : kp,dsc=sift.detectAndCompute(image