2017-04-05 89 views
0

我們有一個用例,我們希望在任何時間範圍(小時粒度)中報告我們應用中的唯一身份訪問者。例如:假設在第0小時我們有下列訪問者{A,B,C,D},在第1小時我們有{C,D,E,F},在第2小時我們有{E,F,A ,B},在第3小時我們有{A,C}。我們需要回答在1小時和3小時之間有多少獨立訪客,同時應該能夠在0小時到3小時之間回答獨特訪客的數量。通過任何時間範圍分析計算唯一身份訪問者數量?

當然,我們不能保存所有唯一的訪客ID,但我們可以保存給定小時的BloomFilter。

我打算使用包含排除屬性來計算工會,但希望看看是否有任何框架或某個人有一個很好的解決方案。

大數據技術:我們有hdfs設置,蜂巢和Spark,Kafka。

+0

在我每個小時的當前解決方案中,我計劃計算新訪客與前幾小時相比。處理第5小時數據的示例中,我打算計算以下內容:1.第5小時的唯一訪問者,第5小時的新訪問者不在第4小時。3.第5小時的新訪問者不在小時內3和小時4等...... –

+0

你應該看看火花流,它有許多內置的[轉換和窗口操作](http://spark.apache.org/docs/latest/streaming-programming- guide.html#transformations-dstreams)您的用例需要。 –

回答

相關問題