2012-07-24 95 views
3

我有幾百萬/十億(10^9)個數據輸入集,需要處理。 他們很安靜小< 1kB。他們需要大約1秒的時間來處理。並行處理雲中的小函數

我已閱讀了很多關於Apache Hadoop,Map Reduce和StarCluster的信息。 但我不確定什麼是最有效和最快的方式來處理它?

我在考慮使用Amazon EC2或類似的雲服務。

+0

Hadoop和MapReduce具有很強的適應性,但它​​們在某些方面肯定更好。你願意/能夠編碼嗎?你知道什麼語言?你需要對數據進行什麼樣的處理? – 2012-07-24 19:47:24

+0

我想我可能只是看着你的個人資料;) – 2012-07-24 19:49:21

+0

@PaulM語言並不重要,我知道Python,Java,Ruby,C,C++,所以我會(希望)能夠學習它:)輸入是一個小字符串,它會像sha512散列一樣處理 - 至少它是一些散列函數 - 但我不允許提供其他細節。 – Mark 2012-07-24 19:52:59

回答

3

您可能會考慮類似Amazon EMR這樣的問題,它會照顧很多Hadoop管道。如果你只是希望快速編寫代碼,hadoop streaming,hive和PIG都是開始使用hadoop的好工具,但要求你瞭解MapReduce的所有內容。

+0

感謝您的回覆。我在問題評論中添加了一些細節。你能推薦一些特殊的方法(流/豬/豬)嗎?對不起,我無法提供更多的細節。 – Mark 2012-07-24 19:55:17

+0

在這種情況下,我會嘗試在Amazon EMR上使用hadoop流。 Hadoop流媒體可讓您使用您選擇的語言編寫像unix管道一樣的MapReduce程序。權衡是一種表現懲罰,對您而言可能有意義或無意義。 Amazon EMR爲您節省了啓動集羣的麻煩。您必須爲Amazon EMR支付費用。 – 2012-07-24 20:16:28

+0

謝謝,我會深入研究一下。 – Mark 2012-07-24 20:59:20