mapreduce

    0熱度

    1回答

    使用brew安裝hadoop,現在想在intelliJ IDEA中運行hadoop作業。如何設置環境並解決依賴關係?

    0熱度

    1回答

    我想在Hive v1.2.1中執行以下查詢,其中field_3是從另一個表中查詢的。 select user_id, start_date, field_3 as stop_date from some_table; 對於返回的每個記錄,field_3的值是相同的。問題是它存儲在另一個表中。爲了得到這個價值,我可以得到它如下。 select max(some_field) as stop_d

    0熱度

    1回答

    我不是一個Java專家,但我知道Java的基礎知識,並且總是試圖在遇到任何問題時深入理解Java代碼。 這可能是一個非常愚蠢的疑問,但很想清楚地理解我的想法。 我在Java社區發佈,因爲我的疑問只是關於Java。 自從最近幾個月我和hadoop一起工作後,發現hadoop使用自己的類型,這些類型被封裝在Java的原始類型中,以便在序列化和反序列化的基礎上提高跨網絡發送數據的效率。 我的困惑就從這裏

    0熱度

    2回答

    我有這個下面減速類 public class CompanyMinMaxReducer extends Reducer<Text, DateClosePair, Text, Text> { private Text rText = new Text(); public void reduce(Text key, Iterable<DateClosePair> values, Cont

    0熱度

    2回答

    我剛剛開始使用MRJob庫在Python中編寫MapReduce程序。 在視頻教程中演示的一個示例是通過location_id查找最高溫度。接下來寫的另一個程序,通過location_id找到最低溫度也很簡單。 我在想,是否有一種方法可以通過location_id在單個mapreduce程序中產生最大和最小溫度?下面是我走在它: from mrjob.job import MRJob '''S

    0熱度

    1回答

    我的輸入包含大量的小ORC文件,我希望在一天的每一天結束,我想將數據拆分爲100MB的塊。 我的輸入和輸出都是S3和環境中使用的電子病歷, 蜂巢參數,正在設置, set hive.msck.path.validation=ignore; set hive.exec.reducers.bytes.per.reducer=256000000; SET hive.exec.dynamic.parti

    0熱度

    1回答

    我必須實現一個map-reduce作業循環。每次迭代將根據前一次迭代終止或繼續。要做出的選擇是基於「在減速器輸出中出現一個詞」。 當然,我可以用我的驅動程序檢查整個輸出txt文件。但它只是一個單詞,並且通過整個文件將會矯枉過正。我正在考慮是否有任何方法來建立減速器和驅動程序之間的通信,一旦它檢測到這個詞,減速器可以通知驅動程序?由於要傳輸的消息很少。

    0熱度

    2回答

    通常我們在一個文本文件中輸入到java文件(比如簡單的字數問題)。相反,現在我有100個csv文件,我想給作爲我的java代碼的輸入(所有文件不能簡單地合併爲一個文件)。試圖預測給定100個股票的最大/最小股票波動率,因此每個csv文件是唯一的。 那麼,如何將csv文件的整個文件夾作爲java程序的輸入流。

    0熱度

    1回答

    我正在嘗試使用mapreduce查找每個小部件的平均值。該作業被成功完成,但使用Hadoop FS -cat用戶/流浪/示例-1 /部分-R-00000 public static class MaxWidgetReducer extends Reducer<Text, FloatWritable, FloatWritable, NullWritable> { public void

    1熱度

    1回答

    我正在處理大型數據集並在其上運行Mapreduce程序。我可以輕鬆地在單個文件上運行Mapreduce,大小約爲3 GB。知道我想在所有文件上運行mapreduce。是否有任何捷徑或技術直接在所有文件上運行mapreduce。 使用OS-Ubuntu Hadoop-2.7.1