2013-03-18 113 views
5

我正在學習Hadoop和MapReduce框架。到現在爲止,我已經玩過文本文件並利用MapReduce框架進行處理。Hadoop和不同格式的輸入如圖像,音頻,視頻

當我啓動MapReduce學習第一個受歡迎的例子時,我發現它是WORDCOUNT這是一個文本文件處理場景。 然後我寫了自己的邏輯來處理一些文本文件並顯示結果。在這種情況下,我取得了成功。

但我需要移動到不同格式的輸入。因爲在現實世界中,我們不會僅處理文本文件。 我需要探索使用MapReduce框架處理不同格式的圖像,音頻,視頻等。 但我正在努力尋找適合我的目的的例子。我需要一些關於MapReduce的示例和教程,使用不同的輸入格式,從文本到視頻。

編輯:

我的意思是處理圖片,視頻和音頻。不僅是文本文件。

編輯2:

爲例: 說我具有10年.BMP圖像(其中,壓縮和解壓縮是不參與),其大小爲450GB的。我需要分析文件夾中的每個圖像,並且我應該顯示類似的圖像(通過比較像素的相似性圖案)。我應該列出在「從」「到」日期之間創建/修改的圖像。說在2013年1月至2013年2月之間在該組圖像中創建/修改的圖像。 我該如何做到這一點?

我會很高興,如果任何人幫助我在正確的道路上旅行!

回答

3

設置映射器和縮減器時,可以指定輸入/輸出鍵和值數據類型。這是您以我想要的方式處理不同數據類型的地方。

這裏是使用int數據類型來計算平均的例子(儘管格式混亂):

http://souravgulati.webs.com/apps/forums/topics/show/8539120-hadoop-map-reduce-example-calculate-mean-in-map-reduce

編輯

當這些類型的文件處理,再次幫助有一個你想要完成的具體例子。例如如果您使用的是音頻:您是否使用.wav文件?這是很好的知道,因爲你可以使用字節數據類型進行處理。否則如果你使用壓縮來處理.mp3文件。

與圖像相同,.bmp文件相信不會被壓縮,並且可以直接使用int或byte數據類型在map reduce中進行操作。在運行作業之前,使用任何類型壓縮的文件很可能需要進行某種預處理。

那裏的大多數教程處理字數或類似的東西。爲了得到更好的建議,最好有特定的問題來解決。

soooo你想用你的mapreduce工作做什麼?計算圖像中的像素數量?壓花圖像?計算音頻文件的平均音量?

編輯

你描述的是2個不同的mapred任務(除非你只想之間的所有圖像進行分析,您對自日期)。

什麼,你可以嘗試做(這是一個沒有任何代碼的高級描述)如下(這是從我的頭頂,我還沒有以這種方式使用的MapReduce):

,因爲您的mapred作業需要一次比較兩個圖像文件,您需要運行number-of-files facotrial map reduce作業以獲取所有可能的文件比較結果。這可能需要一段時間!

您需要您的映射器一次輸入兩個文件並執行比較mapreduce作業。您可以根據需要多次運行此作業來處理源圖像文件的所有組合。你可以用[oozie] [1]

來協調這些作業現在你可能會問 - 如何比較mapreduce中的兩個圖像文件?再次,我已經沒有做這件事,但是這可能你指出正確的方向 - 考慮MapReduce作業與多個文件來源: Hadoop mapper reading from 2 different source input files

+0

好吧,我迷惑了你。對不起,我:()編輯了我的問題,再次查看一下,謝謝! – BinaryMee 2013-03-18 06:28:50

+0

查看編輯答案 – Tucker 2013-03-18 06:36:19

+0

我已經編輯過這個問題了 – BinaryMee 2013-03-18 06:44:58

3

HIPI是與MapReduce的圖像文件的圖像處理框架。

Here是關於雲中高性能視頻處理的論文。這不完全是MapReduce,但與MapReduce非常相似。

請注意,我沒有嘗試過它們,但做了一些Google搜索,這些是我可以得到的最接近的資源。

+0

HIPI有一些問題,我的經驗。請閱讀以下博客文章。 http://worldofbigdata-inaction.blogspot.in/2017/02/processing-images-in-hadoop-using.html – Jobs 2017-02-03 10:44:28