pandas

    2熱度

    1回答

    我試圖顯示一個數據框作爲具有xlim的自定義日期範圍的條形圖。我能夠輸出的曲線圖,如果我選擇kind='line'但我得到以下錯誤消息試圖kind='bar'時: TypeError: ufunc 'isfinite' not supported for the input types, and the inputs could not be safely coerced to any suppo

    0熱度

    1回答

    我有一個DataFrame與索引SubjectID兩列與整數值。我只想保留在Value 1列和Value 2列中具有值的主題,並且擺脫僅具有一個值的主題。 這裏是我的數據幀的例子: SubjectID Value1 Value2 B1 1.57 1.75 B2 N/A 1.56 所以我只是想保持第一排。這是迄今爲止我所編寫的代碼: df_to_add = [] for sub

    3熱度

    2回答

    我有一個熊貓數據幀像一列:(其value_counts如下所示) 1 246804 2 135272 5 8983 8 3459 4 3177 6 1278 9 522 D 314 E 91 0 29 F 20 Name: Admission_Source

    7熱度

    2回答

    我需要幫助轉換我的數據,以便我可以讀取事務數據。 商業案例 我想組一起一定的關聯交易,以創建活動的一些羣體或階層。這個數據集代表了工作人員出席各種缺席活動。我想根據離開事件類365天內的任何交易創建一類葉子。爲了繪製趨勢圖,我想給這些類編號,以便得到一個序列/模式。 我的代碼允許我查看第一個事件發生的時間,它可以識別新類何時開始,但不會將每個事務分爲一個類。 要求: 標籤的所有行依據是什麼讓他們班

    2熱度

    2回答

    我是Python和Pandas的新手,我已經拉入了一個包含15個以上不同日期時間列的數據庫表。我的任務是通常按行中的最新值排序這些列。但是,數據並不乾淨。有時候,A列的日期會在第0行的B列日期之前出現,A會在第1行的B之後出現。 我編寫了幾個函數(爲簡單起見,此處編輯)通過計算時間百分比在一個日期來之前和B之後,然後根據這個百分比排序的列: def get_percentage(df, df_su

    2熱度

    2回答

    我有一個熊貓數據框中的列從0到172800000以10步爲單位。我想從那天的午夜開始將指定日期轉換爲日期時間戳。 因此,假設, time = np.arange(0,172800000, 10) 我想這個轉換的格式如下: YYYY-MM-DD: HH:MM:SS.XXX 的起始日期應該是2016年9月20日。 這裏是我做了什麼: # Create a dummy frame as an e

    3熱度

    1回答

    我正在使用一個熊貓DataFrame。我想在滿足特定條件時將列指示符變量賦值爲1。我計算特定組的分位數。如果該值是位數外,我想將列指示器變量分配給1。例如,下列代碼打印每個組的位數: df[df['LENGTH'] > 1].groupby(['CLIMATE', 'TEMP'])['LENGTH'].quantile(.95)] 現在對於在我的數據幀其是大於所有觀察分組的價值,我想用設置 d

    0熱度

    1回答

    我有一個數據幀,看起來像這樣: DATETIME | TAGNAME1 | TAGNAME2 0 DESCRIPTION | TAG_DESCRIPTION | TAG2_DESCRIPTION 1 01/01/2015 00:00:00 | 100 | 200 我需要有以下結果 DATETIME | TAGNAME | DESCRIPTION | VALU

    1熱度

    1回答

    請參閱在鏈接的形象最好看的輸入和輸出要求的格式和閱讀以下 我試圖說明取一個3(或2)列csv並創建一個新的csv,其中對於每個唯一的第一個元素(即第二列),所有唯一的第0個元素被分組,以便輸出csv行的結構如此: 唯一的第一個元素,獨特的0個元素#1,獨特的0個元素#2,... 使用Python 3.xo r Python 2.x或Hive或SQL。非常感謝任何建議。謝謝!

    4熱度

    3回答

    添加新列有這樣 A B 0 a 1 1 b 2 2 c 3 3 d nan 4 e nan 一個數據幀我想補充的C柱像下面 A B C 0 a 1 a1 1 b 2 b2 2 c 3 c3 3 d nan d 4 e nan e 所以,我想 df["C"]=df.A+df.B 但它返回 C a1 b2 c3 nan nan 怎樣才能得到正確的結果?