1
我構建了一個應用程序,用於使用Hadoop在分佈式環境中搜索相似的圖像存儲。但是Hadoop不支持實時處理,爲什麼響應時間很長。我知道Storm是大數據分析應用的另一個框架。但是我很困惑我們是否可以使用Storm來實現這種應用。風暴框架應用程序
有沒有人提供一個建議什麼樣的應用程序使用高效的Storm框架。
我構建了一個應用程序,用於使用Hadoop在分佈式環境中搜索相似的圖像存儲。但是Hadoop不支持實時處理,爲什麼響應時間很長。我知道Storm是大數據分析應用的另一個框架。但是我很困惑我們是否可以使用Storm來實現這種應用。風暴框架應用程序
有沒有人提供一個建議什麼樣的應用程序使用高效的Storm框架。
Storm是一個用於分佈式計算的非常可擴展,快速,容錯的開源系統,特別關注流處理。 Storm擅長事件處理和增量計算,通過數據流實時計算滾動指標
事件流處理是Storm的主要優勢。
通常Hadoop用於批處理。但風暴是實時處理和星火分佈式處理所有與內存的數據存儲
Hadoop的看看這個Storm and Spark和Stack Comparison鏈接
編輯:
我對這個問題的解決方案
1)存放在CMS()與跨越多個網絡,而不是在HDFS或CDN傳播的NoSQL數據庫)
2圖像內容管理系統)存儲圖片ID,圖片名稱,MD5SUM,圖像Location HBase表中的元信息
3)使用Spark & HBase進行圖像數據處理通過檢查刪除重複圖像MD5SUM
感謝您的回答和偉大的鏈接!我仍然不能清楚這是風暴一個合適的解決方案搜索相似的圖像任務與圖像存儲在分佈式計算機? – ndk076
我也是。我更喜歡Spark到Storm。 –
**免責聲明:我是Apache Flink的提交者**您也可以考慮https://flink.apache.org/與Spark相反,它提供了類似於Storm的真正流式處理(並且不像Spark那樣使用微量處理)而Flink也可以處理批量作業。比較:https://stackoverflow.com/questions/28082581/what-is-the-differences-between-apache-spark-and-apache-flink和https://stackoverflow.com/questions/30699119/what-is-對於flink和風暴之間的主要差異 –