1

我構建了一個應用程序,用於使用Hadoop在分佈式環境中搜索相似的圖像存儲。但是Hadoop不支持實時處理,爲什麼響應時間很長。我知道Storm是大數據分析應用的另一個框架。但是我很困惑我們是否可以使用Storm來實現這種應用。風暴框架應用程序

有沒有人提供一個建議什麼樣的應用程序使用高效的Storm框架。

回答

1

Storm是一個用於分佈式計算的非常可擴展,快速,容錯的開源系統,特別關注流處理。 Storm擅長事件處理和增量計算,通過數據流實時計算滾動指標

事件流處理是Storm的主要優勢。

通常Hadoop用於批處理。但風暴是實時處理和星火分佈式處理所有與內存的數據存儲

Hadoop的看看這個Storm and SparkStack Comparison鏈接

enter image description here

編輯:

我對這個問題的解決方案

1)存放在CMS()與跨越多個網絡,而不是在HDFSCDN傳播的NoSQL數據庫)

2圖像內容管理系統)存儲圖片ID,圖片名稱,MD5SUM,圖像Location HBase表中的元信息

3)使用Spark & HBase進行圖像數據處理通過檢查刪除重複圖像MD5SUM

+0

感謝您的回答和偉大的鏈接!我仍然不能清楚這是風暴一個​​合適的解決方案搜索相似的圖像任務與圖像存儲在分佈式計算機? – ndk076

+0

我也是。我更喜歡Spark到Storm。 –

+0

**免責聲明:我是Apache Flink的提交者**您也可以考慮https://flink.apache.org/與Spark相反,它提供了類似於Storm的真正流式處理(並且不像Spark那樣使用微量處理)而Flink也可以處理批量作業。比較:https://stackoverflow.com/questions/28082581/what-is-the-differences-between-apache-spark-and-apache-flink和https://stackoverflow.com/questions/30699119/what-is-對於flink和風暴之間的主要差異 –