2017-08-04 119 views
0

我正在創建決策樹模型,並且正在使用數據集對其進行訓練。如何將日期/時間戳記納入我的功能

但是,此數據集中的某些列是時間戳日期。我一直在瀏覽Apache的文檔,一直無法找到解析或將這些值添加到我的features列的方法。

任何想法,我怎麼能做到這一點?

+0

很多時候將這些字段用於分類器沒有意義。你確定你在這些領域有用嗎? –

+0

是的。通常最終用戶會在我的程序運行時放置哪些列以查找異常情況。一種可能的情況是,如果列中的日期超過了某個閾值,那麼該值應該被認爲是不好的,我的決策樹需要查看並理解該值爲什麼是錯誤的,這就是爲什麼我需要包含日期在我的功能矢量 –

+0

@ user8371915它沒有重複,因爲沒有人回答這個問題。這個答案還沒有被接受,並且發佈的解決方案僅適用於Scala,而不是Python。 –

回答

0

基本上你需要將它們轉換成特徵。一種方法是創建虛擬變量,如年,月,周,甚至週末,小時。這取決於你想爲你的問題創建什麼功能。

+0

這可能會工作,但它需要大量的處理,特別是因爲時間戳也有小時,分鐘和秒。我想將時間戳轉換爲Integer,但是idk有多合理 –

+0

是的,這就是爲什麼它取決於你的具體問題,如果你關心的只有一小時,那麼你可以從時間戳中提取小時,並創建24虛擬變量與所有的小時在那裏。有了日期,您還可以創建幾個功能,週末/不是週末,一週中的某一天(1-7),一個月(1-12)等等。現在,如果您的問題需要分鐘和秒鐘的詳細信息,您可以例如,也可以將一天中的時間轉換爲從0小時計數秒的整數,例如,這可能有幫助。 –