1

我非常努力地瞭解如何使用Dynamo/ElasticSearch來支持AWS數據湖工作(元數據/目錄)。看起來好像您會在Dynamo中記錄您的zip歸檔文件的各個S3位置以及您希望在ES中搜索的任何其他元數據/屬性。如果這是正確的,你將如何使用這兩者來支持這一點。我試圖找到更詳細的信息,關於如何正確地將兩者配對在一起,但一直不成功。其他人擁有的任何信息/文檔都會很棒。很好的機會,我忽略了一些明顯的例子/文檔。AWS Data Lake Dynamo與ElasticSearch

我所想象的是一樣的東西如下:

  • 用戶可以搜索元數據/ ES中會指向高級別匹配S3桶/分區屬性。
  • DynamoDB中的搜索將針對ES結果中的密鑰部分(分區/存儲區)
  • 搜索很可能會導致許多個別對象/密鑰被處理,提取等。
+0

是的,這聽起來是對的。使用每個服務來做最好的事情。 S3 - 可靠的存儲。 DynamoDB - 快速搜索分區鍵。 Elasticsearch - 快速準確的搜索能力。您只需在所有3個服務中共享一個唯一的ID(uuid)即可將記錄鏈接在一起。 –

回答

0

我與我們的AWS代表談過話,他向我介紹了這篇文章。這是一個很好的起點。 AWS Data Lake。這似乎回答了我關於組件和方法的用戶的一些問題,這在我以前是不清楚的。

亮點:

  • 藍圖實現數據的湖泊。結合S3/DynamoDB/ES很常見。
  • 實現有許多變化。用RDS代替ES/DynamoDB,僅使用ES等。
  • 我們很可能會先從RDS開始鍛鍊過程,然後轉移到DyanmoDB/ES。