Hadoop和不同格式的輸入如圖像，音頻，視頻

我正在學習Hadoop和MapReduce框架。到現在爲止，我已經玩過文本文件並利用MapReduce框架進行處理。Hadoop和不同格式的輸入如圖像，音頻，視頻

當我啓動MapReduce學習第一個受歡迎的例子時，我發現它是WORDCOUNT這是一個文本文件處理場景。然後我寫了自己的邏輯來處理一些文本文件並顯示結果。在這種情況下，我取得了成功。

但我需要移動到不同格式的輸入。因爲在現實世界中，我們不會僅處理文本文件。我需要探索使用MapReduce框架處理不同格式的圖像，音頻，視頻等。但我正在努力尋找適合我的目的的例子。我需要一些關於MapReduce的示例和教程，使用不同的輸入格式，從文本到視頻。

編輯：

我的意思是處理圖片，視頻和音頻。不僅是文本文件。

編輯2：

爲例：說我具有10年.BMP圖像（其中，壓縮和解壓縮是不參與），其大小爲450GB的。我需要分析文件夾中的每個圖像，並且我應該顯示類似的圖像（通過比較像素的相似性圖案）。我應該列出在「從」「到」日期之間創建/修改的圖像。說在2013年1月至2013年2月之間在該組圖像中創建/修改的圖像。我該如何做到這一點？

我會很高興，如果任何人幫助我在正確的道路上旅行！

來源

2013-03-18 BinaryMee

設置映射器和縮減器時，可以指定輸入/輸出鍵和值數據類型。這是您以我想要的方式處理不同數據類型的地方。

這裏是使用int數據類型來計算平均的例子（儘管格式混亂）：

http://souravgulati.webs.com/apps/forums/topics/show/8539120-hadoop-map-reduce-example-calculate-mean-in-map-reduce

編輯

當這些類型的文件處理，再次幫助有一個你想要完成的具體例子。例如如果您使用的是音頻：您是否使用.wav文件？這是很好的知道，因爲你可以使用字節數據類型進行處理。否則如果你使用壓縮來處理.mp3文件。

與圖像相同，.bmp文件相信不會被壓縮，並且可以直接使用int或byte數據類型在map reduce中進行操作。在運行作業之前，使用任何類型壓縮的文件很可能需要進行某種預處理。

那裏的大多數教程處理字數或類似的東西。爲了得到更好的建議，最好有特定的問題來解決。

soooo你想用你的mapreduce工作做什麼？計算圖像中的像素數量？壓花圖像？計算音頻文件的平均音量？

編輯

你描述的是2個不同的mapred任務（除非你只想之間的所有圖像進行分析，您對自日期）。

什麼，你可以嘗試做（這是一個沒有任何代碼的高級描述）如下（這是從我的頭頂，我還沒有以這種方式使用的MapReduce）：

，因爲您的mapred作業需要一次比較兩個圖像文件，您需要運行number-of-files facotrial map reduce作業以獲取所有可能的文件比較結果。這可能需要一段時間！

您需要您的映射器一次輸入兩個文件並執行比較mapreduce作業。您可以根據需要多次運行此作業來處理源圖像文件的所有組合。你可以用[oozie] [1]

來協調這些作業現在你可能會問 - 如何比較mapreduce中的兩個圖像文件？再次，我已經沒有做這件事，但是這可能你指出正確的方向 - 考慮MapReduce作業與多個文件來源： Hadoop mapper reading from 2 different source input files

來源

2013-03-18 06:24:24 Tucker

好吧，我迷惑了你。對不起，我:(）編輯了我的問題，再次查看一下，謝謝！ – BinaryMee 2013-03-18 06:28:50

查看編輯答案 – Tucker 2013-03-18 06:36:19

我已經編輯過這個問題了 – BinaryMee 2013-03-18 06:44:58

HIPI是與MapReduce的圖像文件的圖像處理框架。

Here是關於雲中高性能視頻處理的論文。這不完全是MapReduce，但與MapReduce非常相似。

請注意，我沒有嘗試過它們，但做了一些Google搜索，這些是我可以得到的最接近的資源。

來源

2013-03-18 14:55:16

HIPI有一些問題，我的經驗。請閱讀以下博客文章。 http://worldofbigdata-inaction.blogspot.in/2017/02/processing-images-in-hadoop-using.html – Jobs 2017-02-03 10:44:28

Hadoop和不同格式的輸入如圖像，音頻，視頻

回答

相關問題