sklearn-pandas

    0熱度

    1回答

    我是新來的機器學習和第一次嘗試Sklearn。我有兩個數據框,一個用於訓練邏輯迴歸模型(具有10倍交叉驗證)的數據和另一個用於使用該模型預測類('0,1')的數據。 這裏是我到目前爲止的代碼使用教程我在Sklearn文檔和Web上發現的位: import pandas as pd import numpy as np import sklearn from sklearn.linear_mo

    0熱度

    1回答

    如何在結構化數據中的多列上做k? 在下面1列(名稱)及其所完成的例子 tfidf_matrix = tfidf_vectorizer.fit_transform(df_new [「名」]) 這裏僅使用名字,但說我們想用的名字和國家,我是否應該將國家添加到同一專欄如下? df_new['name'] = df_new['name'] + " " + df_new['country'] tfidf_

    2熱度

    1回答

    我想從數據框(df)獲取列名並將它們關聯到由spearmanr相關函數生成的結果數組。我需要將列名(a-j)與相關值(spearman)和p值(spearman_pvalue)關聯起來。有沒有一種直觀的方式來執行此任務? from scipy.stats import pearsonr,spearmanr import numpy as np import pandas as pd df=

    1熱度

    1回答

    Duration Protocol Direction Label 12 tcp bi normal-V45 2 udp one Botnet-45 2 icmp bi Botnet-68 3 tcp one normal-V73 5 udp bi Background-tcp 3 icmp one Background 我想選擇最後一列(

    3熱度

    2回答

    其實,我的問題是基於: Is there a faster way to update dataframe column values based on conditions? 因此,數據應該是: import pandas as pd import io t=""" AV4MdG6Ihowv-SKBN_nB DTP,FOOD AV4Mc2vNhowv-SKBN_Rn Cash 1,FOO

    0熱度

    1回答

    我有一個擁有帳戶信息和取消原因的熊貓數據框。我清理了數據/詞組化/刪除了我自己的停用詞來提出n克和頻率。如何將所有ngram添加回原始數據集,以便頻率與帳戶級別信息一致?理想情況下,我希望採取這種方式並輸出一份我可以提供給企業的文件。 有沒有一種方法可以使用稀疏矩陣來實現這一點?不確定這是否可行,甚至可以擴展到更大的數據集。 下面是我想附加到原始數據幀的一些頻率的圖片。 frequencies c

    1熱度

    2回答

    我想使用隨機森林進行基於吉尼指數的特徵選擇。我的數據集混合了數字(連續)和分類(字符串)數據。這是該數據集的例子 VAR1 VAR2 198 zcROj17IEC 336 DHeTmBftjz 252.3 crIgUHSK8h 252 ZSNrjIX0Db 我知道樹木適用於離散數據(分類),但確實隨機森林在Sklearn需要持續的數值數據先離散化還是可以處理?對於分類字符串變量我用下面的與零和一

    0熱度

    1回答

    定製變壓器我下面的sklearn_pandas穿行在sklearn_pandas README on github發現,我試圖修改DateEncoder()定製變壓器爲例做2個額外的東西: 轉換字符串類型的列以日期格式作爲參數時的日期時間 當吐出新列時附加原始列名稱。例如:如果輸入列:Date1則輸出:Date1_year,Date1_month,Date_1日。 這裏是我的嘗試(與sklearn

    0熱度

    1回答

    嗨,這是我的代碼: 當我嘗試運行這個,我得到一個錯誤。 df = pd.read_csv(file, sep='|', encoding='latin-1') arreglox = df[df.columns['id':'date_in':'date_out':'objetive':'comments']].as_matrix() arregloy = df[df.columns[1]].

    -2熱度

    1回答

    我有一個使用熊貓的問題。 我有這樣一個表: 0 A B C d 1個S d F G ...... 和第一行中的每個元素是每個列的索引。 但我想在表格頂部添加一行,並且我希望新行成爲每個colomn表的索引,我應該怎麼做?謝謝!!!!