scikit-learn

12熱度

1回答

如何使用scikit-learn在大型csv數據（〜75MB）上訓練模型而不會遇到內存問題？我使用IPython筆記本作爲編程環境，使用pandas + sklearn包來分析kaggle的數字識別器教程中的數據。的數據是可在webpage，鏈接到my code，這裏是error message： KNeighborsClassifier用於預測。問題：使用read_csv 功能裝載大數據集

13熱度

3回答

Python與Ngrams的頻率列表

我需要從文本中獲得最受歡迎的ngrams。 Ngrams長度必須從1到5個單詞。我知道如何獲得bigrams和trigrams。例如： bigram_measures = nltk.collocations.BigramAssocMeasures() finder = nltk.collocations.BigramCollocationFinder.from_words(words) fi

4熱度

2回答

從CSV導入分類數據到scikit-learn

我想從CSV文件導入數據以用於scikit-learn。它具有數字數據分類數據的混合，例如， someValue,color,someOtherValue 1.2,red,55.6 1.9,blue,20.5 3.2,red,16.5 我需要這表示轉換成一個純粹的數值之一，分類數據點被轉換成多個二進制列，例如 someValue,colorIsRed,colorIsBlue,someOt

10熱度

2回答

簡單的例子 - 無法解釋的分類

使用scikit學習0.10 爲什麼以下瑣碎的代碼片段： from sklearn.naive_bayes import * import sklearn from sklearn.naive_bayes import * print sklearn.__version__ X = np.array([ [1, 1, 1, 1, 1], [0, 0, 0, 0, 0]

4熱度

1回答

scikit-learning如何對libsvm格式的稀疏數據執行PCA？

我正在使用scikit-learning做一些降維任務。我的培訓/測試數據採用libsvm格式。它是一個大型的50萬列的稀疏矩陣。我使用load_svmlight_file函數加載數據，並且通過使用SparsePCA，scikit-learning會拋出輸入數據錯誤的異常。如何解決？

6熱度

1回答

TF-IDF簡單使用 - NLTK/Scikit學習

好吧，所以我有點困惑。然而，這應該是一個簡單直接的問題。計算針對整個文集文檔的TF-IDF矩陣後，我得到的非常相似，這樣的結果： array([[ 0.85..., 0. ..., 0.52...], [ 1. ..., 0. ..., 0. ...], [ 1. ..., 0. ..., 0. ...], [ 1. ..., 0. ..., 0. ...],

17熱度

2回答

適用於Python 3x的最佳機器學習軟件包？

我很失望，看到scikit學習不支持Python 3 ...有沒有人可以推薦用於Python 3的比較軟件包？

12熱度

1回答

TF * IDF的搜索查詢

好了，所以我一直在關注的TF-IDF這兩個職位，但我有點困惑：http://css.dzone.com/articles/machine-learning-text-feature 基本上，我想創建一個包含搜索通過多個文檔的搜索查詢。我想使用scikit-learn工具包以及用於Python的NLTK庫問題是我沒有看到兩個TF * IDF矢量來自哪裏。我需要一個搜索查詢和多個文檔來搜索。我想我計

4熱度

4回答

導入錯誤：試圖導入Python模塊

詳細信息時，在Windows 7中缺少DLL：的Python 3.2（32位安裝）的Windows 7 64位代碼引發錯誤： from sklearn import svm 錯誤： Traceback (most recent call last): File "C:\Users\chrismv48\workspace\Python Datamining\Biological_

3熱度

1回答

問題序列化我scikit學習（sklearn）網格搜索分類中的IPython

我跑了網格搜索分類從下面的IPython： http://scikit-learn.org/dev/auto_examples/grid_search_digits.html ，然後試圖通過酸洗序列化，但收到以下回溯： In [6]: with open('clf.pkl', 'wb') as f: cPickle.dump(clf, f) ...: -----------