scikit-learn

    12熱度

    1回答

    如何使用scikit-learn在大型csv數據(〜75MB)上訓練模型而不會遇到內存問題? 我使用IPython筆記本作爲編程環境,使用pandas + sklearn包來分析kaggle的數字識別器教程中的數據。 的數據是可在webpage,鏈接到my code,這裏是error message: KNeighborsClassifier用於預測。 問題:使用read_csv 功能裝載大數據集

    13熱度

    3回答

    我需要從文本中獲得最受歡迎的ngrams。 Ngrams長度必須從1到5個單詞。 我知道如何獲得bigrams和trigrams。例如: bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) fi

    4熱度

    2回答

    我想從CSV文件導入數據以用於scikit-learn。它具有數字數據分類數據的混合,例如, someValue,color,someOtherValue 1.2,red,55.6 1.9,blue,20.5 3.2,red,16.5 我需要這表示轉換成一個純粹的數值之一,分類數據點被轉換成多個二進制列,例如 someValue,colorIsRed,colorIsBlue,someOt

    10熱度

    2回答

    使用scikit學習0.10 爲什麼以下瑣碎的代碼片段: from sklearn.naive_bayes import * import sklearn from sklearn.naive_bayes import * print sklearn.__version__ X = np.array([ [1, 1, 1, 1, 1], [0, 0, 0, 0, 0]

    4熱度

    1回答

    我正在使用scikit-learning做一些降維任務。 我的培訓/測試數據採用libsvm格式。它是一個大型的50萬列的稀疏矩陣。 我使用load_svmlight_file函數加載數據,並且通過使用SparsePCA,scikit-learning會拋出輸入數據錯誤的異常。 如何解決?

    6熱度

    1回答

    好吧,所以我有點困惑。然而,這應該是一個簡單直接的問題。 計算針對整個文集文檔的TF-IDF矩陣後,我得到的非常相似,這樣的結果: array([[ 0.85..., 0. ..., 0.52...], [ 1. ..., 0. ..., 0. ...], [ 1. ..., 0. ..., 0. ...], [ 1. ..., 0. ..., 0. ...],

    17熱度

    2回答

    我很失望,看到scikit學習不支持Python 3 ...有沒有人可以推薦用於Python 3的比較軟件包?

    12熱度

    1回答

    好了,所以我一直在關注的TF-IDF這兩個職位,但我有點困惑:http://css.dzone.com/articles/machine-learning-text-feature 基本上,我想創建一個包含搜索通過多個文檔的搜索查詢。我想使用scikit-learn工具包以及用於Python的NLTK庫 問題是我沒有看到兩個TF * IDF矢量來自哪裏。我需要一個搜索查詢和多個文檔來搜索。我想我計

    4熱度

    4回答

    詳細信息時,在Windows 7中缺少DLL: 的Python 3.2(32位安裝) 的Windows 7 64位 代碼引發錯誤: from sklearn import svm 錯誤: Traceback (most recent call last): File "C:\Users\chrismv48\workspace\Python Datamining\Biological_

    3熱度

    1回答

    我跑了網格搜索分類從下面的IPython: http://scikit-learn.org/dev/auto_examples/grid_search_digits.html ,然後試圖通過酸洗序列化,但收到以下回溯: In [6]: with open('clf.pkl', 'wb') as f: cPickle.dump(clf, f) ...: -----------