並行處理雲中的小函數

我有幾百萬/十億（10^9）個數據輸入集，需要處理。他們很安靜小< 1kB。他們需要大約1秒的時間來處理。並行處理雲中的小函數

我已閱讀了很多關於Apache Hadoop，Map Reduce和StarCluster的信息。但我不確定什麼是最有效和最快的方式來處理它？

我在考慮使用Amazon EC2或類似的雲服務。

2012-07-24 Mark

Hadoop和MapReduce具有很強的適應性，但它們在某些方面肯定更好。你願意/能夠編碼嗎？你知道什麼語言？你需要對數據進行什麼樣的處理？ – 2012-07-24 19:47:24

我想我可能只是看着你的個人資料;） – 2012-07-24 19:49:21

@PaulM語言並不重要，我知道Python，Java，Ruby，C，C++，所以我會（希望）能夠學習它:)輸入是一個小字符串，它會像sha512散列一樣處理 - 至少它是一些散列函數 - 但我不允許提供其他細節。 – Mark 2012-07-24 19:52:59

您可能會考慮類似Amazon EMR這樣的問題，它會照顧很多Hadoop管道。如果你只是希望快速編寫代碼，hadoop streaming，hive和PIG都是開始使用hadoop的好工具，但要求你瞭解MapReduce的所有內容。

來源

2012-07-24 19:52:21

感謝您的回覆。我在問題評論中添加了一些細節。你能推薦一些特殊的方法（流/豬/豬）嗎？對不起，我無法提供更多的細節。 – Mark 2012-07-24 19:55:17

在這種情況下，我會嘗試在Amazon EMR上使用hadoop流。 Hadoop流媒體可讓您使用您選擇的語言編寫像unix管道一樣的MapReduce程序。權衡是一種表現懲罰，對您而言可能有意義或無意義。 Amazon EMR爲您節省了啓動集羣的麻煩。您必須爲Amazon EMR支付費用。 – 2012-07-24 20:16:28

謝謝，我會深入研究一下。 – Mark 2012-07-24 20:59:20

並行處理雲中的小函數

回答

相關問題