scikit-learn

    0熱度

    1回答

    我使用以下代碼在〜20,000,000個文檔上生成了tf-idf模型,該模型效果很好。問題是,當我嘗試使用計算時的相似性指標linear_kernel內存使用情況炸燬: from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel t

    0熱度

    1回答

    我提供了一個數據集,我試圖找到一些X和Y數據之間的關係。我希望能夠使用sklearn庫來繪製數據並預測/繪製公式的曲線。 然而,我的代碼是停留在一個無限循環,當我嘗試和多項式迴歸模型擬合到我的數據集之後劇情我預測值。 的最終目標將是,一旦我有曲線預測/繪我想能夠知道什麼是曲線的整個方程。 這是我的代碼。 import numpy as np import matplotlib.pyplot as

    -1熱度

    3回答

    我想解決在python中使用xgboost的迴歸問題。但是我遇到了一個問題。我在很多地方搜索過它,但無法獲得任何具體結果。 我有一個食物聚合器的商業模式。我的平臺上的用戶可以從許多不同的餐館訂購。 我想使用迴歸模型來預測訂單的ETA(用於在用戶放置它之後在應用上顯示)。我正在考慮在我的訓練模型中使用「restaurant_id」作爲功能。但現在問題是我的平臺上有超過100家餐館。我不能使用它的數字

    0熱度

    1回答

    我想在MultinomialNB(1)上進行隨機化參數優化。現在我的參數有3個,而不是一個值,因爲它是'class_prior',而且我有3個類。 from sklearn.naive_bayes import MultinomialNB from sklearn.grid_search import RandomizedSearchCV from scipy.stats import uni

    0熱度

    1回答

    我試圖應用線性迴歸方法用於樣品9與使用python約50特徵的數據集。我曾嘗試不同的方法進行線性迴歸即封閉形式的OLS(普通最小二乘法),LR(線性迴歸),HR(胡貝爾迴歸),NNLS(非負最小二乘法)和他們每個人給出了不同的權重。 但我可以得到直覺,爲什麼HR和NNLS有不同的解決方案,但LR和封閉形式的OLS具有相同的目標函數,用於最小化給定樣本中觀察值與由一組特徵的線性函數。由於訓練集是單數

    0熱度

    1回答

    我正在學習使用Python進行機器學習,並瞭解我無法通過模型運行分類數據,並且必須先獲取假人。我的一些分類數據有空值(僅有2個特徵的一小部分)。當我轉換成傻瓜,然後看看我是否缺少值,它總是顯示沒有。我應該事先進行評估嗎?或者我會根據分類數據進行歸類?例如,如果該類別是男性/女性,我不想用最常見的替換空值。我看到,如果這個功能是收入的話,這將會是有意義的,我將會推測缺失的價值。收入是收入,而男性不是

    0熱度

    1回答

    扯皮我有Python中的數據幀DF Age product ------------------ 21 apple 11 orange eighteen mango 35 pineapple 35 122 NA apple 30 -1 我只想年齡數值列,我怎麼會丟棄哪些不是整數的行。 同樣在產品中,我只需要字符串,我將如何刪除不是字符串的值。

    1熱度

    1回答

    我似乎無法弄清楚這一點。我有一個使用scikit-learn培訓過的模型,保存到.pkl文件中,並且我想製作一個基於它的預測的API。 我已經有了能夠做出預測的代碼,它可以在控制檯/單元測試中正常運行。爲了加速預測,我將分割數據(數千個圖像補丁)並使用joblib/multiprocessing擴展負載。 我在設置JOBLIB_START_METHOD=forkserver,因爲如果從multip

    0熱度

    1回答

    我正在學習從Kaggle上的this tutorial機器學習。 我嘗試修改項目結構,因此我創建了一個新的.py文件來創建一個新類。這是類: class ModelHelper(object): def __init__(self, model, seed=0, params=None): params['random_state'] = seed # TypeError:

    -2熱度

    1回答

    這裏是我的代碼: sift=cv2.xfeatures2d.SIFT_create() descriptors_unclustered=[] dictionarysize=800 BOW=cv2.BOWKmeansTrainer(dictionarysize) for p in training-paths : kp,dsc=sift.detectAndCompute(image