通過任何時間範圍分析計算唯一身份訪問者數量？

我們有一個用例，我們希望在任何時間範圍（小時粒度）中報告我們應用中的唯一身份訪問者。例如：假設在第0小時我們有下列訪問者{A，B，C，D}，在第1小時我們有{C，D，E，F}，在第2小時我們有{E，F，A ，B}，在第3小時我們有{A，C}。我們需要回答在1小時和3小時之間有多少獨立訪客，同時應該能夠在0小時到3小時之間回答獨特訪客的數量。通過任何時間範圍分析計算唯一身份訪問者數量？

當然，我們不能保存所有唯一的訪客ID，但我們可以保存給定小時的BloomFilter。

我打算使用包含排除屬性來計算工會，但希望看看是否有任何框架或某個人有一個很好的解決方案。

大數據技術：我們有hdfs設置，蜂巢和Spark，Kafka。

來源

2017-04-05 Girish Subramanian

在我每個小時的當前解決方案中，我計劃計算新訪客與前幾小時相比。處理第5小時數據的示例中，我打算計算以下內容：1.第5小時的唯一訪問者，第5小時的新訪問者不在第4小時。3.第5小時的新訪問者不在小時內3和小時4等...... –

你應該看看火花流，它有許多內置的[轉換和窗口操作]（http://spark.apache.org/docs/latest/streaming-programming- guide.html＃transformations-dstreams）您的用例需要。 –

您可以使用HyperLogLog算法。 HyperLogLog草圖非常節省空間，可以輕鬆合併構建聯合。見http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf。

來源

2017-04-05 12:13:03 otmar

通過任何時間範圍分析計算唯一身份訪問者數量？

回答

相關問題