我有一個數據集,看起來像這樣:聚合數據基於行的Python
Date | ID | Task | Description
2016-01-06 00:00:00 | 1 | 010 | This is text
2016-01-06 00:10:00 | 1 | 020 | This is text
2016-01-06 00:20:00 | 1 | 010 | This is text
2016-01-06 01:00:00 | 1 | 020 | This is text
2016-01-06 01:10:00 | 1 | 030 | This is text
2016-02-06 00:00:00 | 2 | 010 | This is text
2016-02-06 00:10:00 | 2 | 020 | This is text
2016-02-06 00:20:00 | 2 | 010 | This is text
2016-02-06 01:00:00 | 2 | 020 | This is text
2016-02-06 01:01:00 | 2 | 030 | This is text
任務020
一般任務010
後發生。這意味着當任務020
開始意味着任務010
端,同樣也適用於任務020
,如果它在任何其他任務之前,則表示它已停止。
我需要組由Task
計算平均期限,總和和計數每個ID
每種類型的任務的,所以我期待這樣的事情:
ID | Task | Average | Sum | Count
1 | 010 | 25 | 50 | 2
1 | 020 | 10 | 20 | 2
etc | etc | etc | etc | etc
有更多的ID,但我只關心010
和020
,所以無論從他們返回的號碼是可以接受的。
有人可以請幫助如何在Python中做到這一點?這遠遠超出了我目前的技能。
我正在使用anaconda發行版。
非常感謝先進。
你怎麼知道**最後**任務的持續時間? –
這是我遇到的一個問題,我無法真正瞭解這個持續時間。但是,因爲我只需要'010'和'020',所以我不需要知道它。 –
嗨@jezrael對不起,我不明白你的問題。你想介紹一下嗎? –