mapreduce

    31熱度

    11回答

    這是一個涉及Hadoop/HDFS的概念性問題。假設你有一個包含10億行文件的文件。爲了簡單起見,我們考慮每條線的形式爲<k,v>,其中k是線從開始的偏移量,value是線的內容。 現在,當我們說我們要運行N個map任務時,框架是否將輸入文件拆分爲N個split並在該split上運行每個map任務?或者我們是否必須編寫一個分區函數來分割並運行分割生成的每個映射任務? 我想知道的是,拆分是內部完成還

    7熱度

    5回答

    我嘗試使用System.out.println()打印輸出值,但它們不會出現在控制檯上。如何使用Hadoop打印出map/reduce應用程序中的值以進行調試? 感謝, 迪帕克。

    1熱度

    1回答

    有人可以通過使用從DDL生成的類讀取和寫入數據的基本工作流程來引導我嗎? 我用DDL定義了一些類似結構的記錄。例如: class Customer { ustring FirstName; ustring LastName; ustring CardNo; long LastPurchase; } 我編譯了這個以獲得一個Customer類並將其

    0熱度

    2回答

    我有一個快速的Hadoop Streaming問題。如果我正在使用Python流,並且我有我的映射器/減速器需要但未默認安裝的Python包,我是否還需要在所有Hadoop機器上安裝這些包,或者是否有某種序列化將它們發送到遠程機器?

    0熱度

    1回答

    我能用Mapreduce做什麼?字典?名單?我用它做什麼?舉一個真實簡單的例子

    9熱度

    4回答

    嘿,剛開Hadoop和好奇在MapReduce的最好的辦法是,如果你的日誌文件看起來像這樣來算獨立訪問者開始...... DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB

    2熱度

    3回答

    我是一名數學家,偶爾會做一些統計/機器學習分析諮詢項目。我可以訪問的數據通常較小,最多隻有幾百兆字節(幾乎總是少得多),但我想了解有關處理和分析千兆字節/兆兆字節數據的更多信息。我需要知道什麼以及有哪些好的資源可供學習? Hadoop/MapReduce是一個明顯的開始。 是否有我應該選擇的特定編程語言? (我現在主要工作在Python,Ruby,R,偶爾是Java,但似乎C和Clojure經常用

    1熱度

    6回答

    我有一個代碼片段,我正在使用一個靜態代碼塊來初始化一個變量。 public static class JoinMap extends Mapper<IntWritable, MbrWritable, LongWritable, IntWritable> { ....... public static RTree rt = null; static

    2熱度

    1回答

    我見過的所有MongoDB MapReduce示例都涉及到計數/添加數字。我需要組合字符串,它看起來像MapReduce是該作業的最佳工具。我有這種格式的大型MongoDB集合: {name: userone, type: typeone} {name: usertwo, type: typetwo} {name: userthree, type: typeone} 每個名稱只有一種類型,

    2熱度

    4回答

    我有一個數據庫,其中有一個表在一個表中有數十億行,我有過去5年的數據。我試圖以各種可能的方式優化數據,但延遲並沒有減少。我知道有一些解決方案,比如使用水平分割和垂直分割。但我不確定任何開源實現和開發所需的開發時間。有沒有人有使用這種系統的經驗? 謝謝。