我對R和Spark都是新手,但我試圖創建一個可擴展的R應用程序來檢測用戶執行的增加/減少查詢。使用Spark和R進行時間序列趨勢檢測
我必須包含以下格式數據的星火據幀:
+-------+------------------------+-------------------------+
| user | query | query_time |
+-------+------------------------+-------------------------+
| user1 | Hp tablet | 2011-08-21T11:07:57.346 |
| user2 | Hp tablet | 2011-08-21T22:22:32.599 |
| user3 | Hp tablet | 2011-08-22T19:08:57.412 |
| user4 | hp laptop | 2011-09-05T15:33:31.489 |
| user5 | Samsung LCD 550 | 2011-09-01T10:28:33.547 |
| user6 | memory stick | 2011-09-06T17:15:42.852 |
| user7 | Castle | 2011-08-28T22:06:37.618 |
+-------+------------------------+-------------------------+
這個數據集有數百行的萬。我需要能夠以某種方式形象化,例如,「hp tablet」正在呈現趨勢。
我已經看了一些庫(例如Breakout Detection,Anomaly Detection和this question),可以幫助我實現這一點,但我不知道他們是否有火花發揮出色。如果他們這樣做,我找不到有關如何編程的例子。
我正在使用R版本3.4.0和SparkR版本2.1.0,在Zeppelin筆記本上運行。
有沒有人有任何想法?我也接受任何其他方法。 謝謝!
%sql
select * from temp_query
屏幕2::上面創建
嗨@Arun,非常感謝您的詳細解答。 因爲我是Spark新手,這已經幫助我理解了一些東西,但我認爲它不能回答我原來的問題。 我需要知道隨着時間的推移哪些查詢會越來越流行,所以X軸應該是時間序列。我在想,也許[這個突破檢測庫](https://github.com/twitter/BreakoutDetection)會訣竅,但我不知道如何將它與SparkR一起使用。 –