-1

數據集:我得到了每個客戶每天使用產品的分鐘數,並試圖將這些數據集羣以便找到常見的使用模式。爲使用羣集準備數據

我的問題:如何格式化數據,以便例如一年內使用率高的高級用戶看起來與僅能夠使用該設備一個月的不同高級用戶相同在我結束數據收集之前?

到目前爲止,我已將每個客戶轉換爲數組,其中每個單元格是當天使用的分鐘數。該陣列在用戶第一次使用產品時開始,並在用戶第一年使用後結束。對於聚類模型,單元格中的所有條目都必須是double值(使用200.0分鐘)。我曾考慮將數據收集的最後一天之後的所有單元格/天設置爲-1.0或NULL。這些都是有效的方法嗎?如果不是,你會建議什麼?

+0

請**不要交叉**:http://datascience.stackexchange.com/q/11456/924 –

+0

數據科學社區要小得多,我沒有及時預測到任何反應即使他們在這個問題上更合格。爲什麼把同一個問題發佈到兩個不同的社區是不合適的? –

回答

1

對於您希望兩個用戶的問題(一個使用該產品每天大量一年,並用了很多一個月的除外),創建一個新的條目,其中它的價值觀是:

avg_usage per time_bin 

time_bin可以是最適合您需求的一個月,一天或另一個時間倉。 這種方式,它使用的產品的用戶,比方說,每天200分鐘,一年將獲得:

200 * 30 * 12/12 = 6000 minutes per month 

和其他用戶,其上個月剛剛加盟,也將獲得,具有完全相同的使用情況將得到:

200 * 30 * 1/1 = 6000 minutes per month. 

這樣,開始使用產品時無關緊要,唯一重要的是使用率。

您可能會考慮的一件重要事情是,產品可能會被遺忘一段時間。例如,一臺電腦,而我不在度假。那些日子我沒有使用我的電腦,沒有(也許)我的這個產品的一般用法的影響。因此,根據您的數據,產品和直覺,您可能會考慮刪除像我之前提到的差距,並且在計算過程中不考慮這些差距。

時間的用戶使用你的產品可能是一些信號,但如果他確實只是開始前一段時間,並且仍然使用它,直到今天,它可能是你需要考慮到的東西,數量和對於這種用途,這種平均分檔技術可能會有所幫助。