2016-02-13 92 views
2

我目前工作的一個分配與平均值代替,我需要找到離羣&列,平均/平均取代先前的2個未來的2值的他們。
我有這下面2列作爲數據框。
樣本數據如下所示。
enter image description here查找異常值和Apache的星火

請讓我知道如何使用數據框來實現這一點。任何建議都會有很好的幫助。謝謝。

+2

它是否執行了一些分組?你如何確定訂單?你用什麼語言? – zero323

+0

是的,它是通過分組CustomerID來執行的。我正在使用Scala – Kazhiyur

+0

訂購過程如何?你想使用數據集的平均值和標準差還是每個客戶? – zero323

回答

0

我想出瞭解決上述問題的方法。
使用HiveContext窗口函數,我們可以在異常檢測&替換它們之後識別&之前的行。以下是示例代碼。
VAL W = Window.partitionBy( 「客戶id」)。ORDERBY( 「EVENTDATE」)之前
VAL = w.rowsBetween(-2,-1) VAL後= w.rowsBetween(1,2)