2016-07-28 43 views
1

我有一個Spark作業,其最終輸出是Algebird布隆過濾器,我需要在另一個Spark作業中重用此布隆過濾器。 有沒有辦法使用Twitter Storehaus將這個布隆過濾器存儲在kv商店(例如:redis)中,並在其他作業(反序列化爲algebird布隆過濾器)中檢索它?Store Store algebird布盧姆過濾器和Storehaus

回答

1

如果您不打算對bloomfilter進行併發修改,最好的方法是將bloomfilter存儲爲分佈式位集。考慮將關鍵空間作爲對數組進行分區的索引,並將該值作爲該索引的數組的一部分。然後你可以用更少的IO來讀寫。這要求您基本上重新實現了關卡算法或storehaus MergeableStore。

這將是很好的在倉庫,但我們並沒有真正做到這一點。我們一直使用不需要分發的較小的bloomfilters。