分佈式LSH（局部敏感散列）

我想用LSH構建一個具有數百萬高維向量的大型可伸縮數據庫。由於我必須將所有數據保存在ram中才能進行快速查詢，因此必須將數據分佈到多個服務器上以保存所有對象。分佈式LSH（局部敏感散列）

一個簡單的方法是將所有對象分散到不同的服務器，並向每個服務器發送一個查詢。具有最佳答案的服務器具有正確的對象。

我確定必須有一些更好的解決方案，查詢不必發送到所有服務器節點，並且類似的對象在一臺服務器上組合在一起。

什麼是分佈式LSH表的好方法？也許還有一些項目在那裏？

感謝您的任何提示。

2010-10-23 Marlon

我會看看卡桑德拉，自定義分區。 – 2011-08-11 07:56:08

這可能是相關的：Haghani，Michele和Arberer在[使用局部敏感哈希的高維分佈式相似搜索]（http://qid3.mmci.uni-saarland.de/publications/haghani-edbt2009.pdf）。 – 2012-10-02 15:32:39

@ KiptonBarros的鏈接已經消失，但可以在這裏找到本文：https：//openproceedings.org/2009/conf/edbt/HaghaniMA09.pdf – duhaime 2017-08-16 13:19:33

首先，您要考慮要訪問數據的密鑰。正是這些鍵你想要散列 - 並且，如果你知道你想訪問的確切鍵，你可以散列它們來確定要查詢哪個服務器 - 消除了查詢每個服務器的需要。

如果您不知道確切的密鑰（因爲我懷疑是您的情況），事情會變得更加困難 - LSH會爲您的記錄生成一個總訂單 - 其中類似記錄可能（但不是保證）具有相同記錄哈希值。例如，我認爲這是超平面與其原點法線向量長度的映射......因此，例如，如果搜索類似（但不相同）的超平面到4到5之間的超平面來自原點的單位，一個開始尋找的好地方就是距離原點4到5個單位的其他超平面。因此，如果這個「起源距離」是你的本地敏感散列函數，那麼你可以使用它的數據，並且這樣做 - 你可以通過僅搜索具有匹配的「距離起源'LCH。通過這個特定的LCH，其中相似度與哈希線性相關，只有在訪問分佈式服務器的子集時，纔有可能獲得確定的結果。所有LSH功能都不是這種情況。

恕我直言，一切都取決於您的LSH功能 - 而且選擇取決於您的應用程序的具體情況。

來源

2011-09-25 13:38:56 aSteve

分佈式LSH（局部敏感散列）

回答

相關問題