mapreduce

31熱度

11回答

這是一個涉及Hadoop/HDFS的概念性問題。假設你有一個包含10億行文件的文件。爲了簡單起見，我們考慮每條線的形式爲<k,v>，其中k是線從開始的偏移量，value是線的內容。現在，當我們說我們要運行N個map任務時，框架是否將輸入文件拆分爲N個split並在該split上運行每個map任務？或者我們是否必須編寫一個分區函數來分割並運行分割生成的每個映射任務？我想知道的是，拆分是內部完成還

7熱度

5回答

調試hadoop應用程序

我嘗試使用System.out.println（）打印輸出值，但它們不會出現在控制檯上。如何使用Hadoop打印出map/reduce應用程序中的值以進行調試？感謝，迪帕克。

1熱度

1回答

Hadoop/MapReduce：讀取和寫入從DDL生成的類

有人可以通過使用從DDL生成的類讀取和寫入數據的基本工作流程來引導我嗎？我用DDL定義了一些類似結構的記錄。例如： class Customer { ustring FirstName; ustring LastName; ustring CardNo; long LastPurchase; } 我編譯了這個以獲得一個Customer類並將其

0熱度

2回答

使用Hadoop Streaming管理依賴關係？

我有一個快速的Hadoop Streaming問題。如果我正在使用Python流，並且我有我的映射器/減速器需要但未默認安裝的Python包，我是否還需要在所有Hadoop機器上安裝這些包，或者是否有某種序列化將它們發送到遠程機器？

0熱度

1回答

我熟悉Python及其數據結構。有人能給我一個關於如何使用Hadoop Mapreduce的非常基本的例子嗎？

我能用Mapreduce做什麼？字典？名單？我用它做什麼？舉一個真實簡單的例子

9熱度

4回答

使用Hadoop來計算獨特訪客的最佳方式是什麼？

嘿，剛開Hadoop和好奇在MapReduce的最好的辦法是，如果你的日誌文件看起來像這樣來算獨立訪問者開始...... DATE siteID action username 05-05-2010 siteA pageview jim 05-05-2010 siteB pageview tom 05-05-2010 siteA pageview jim 05-05-2010 siteB

2熱度

3回答

海量數據入門

我是一名數學家，偶爾會做一些統計/機器學習分析諮詢項目。我可以訪問的數據通常較小，最多隻有幾百兆字節（幾乎總是少得多），但我想了解有關處理和分析千兆字節/兆兆字節數據的更多信息。我需要知道什麼以及有哪些好的資源可供學習？ Hadoop/MapReduce是一個明顯的開始。是否有我應該選擇的特定編程語言？（我現在主要工作在Python，Ruby，R，偶爾是Java，但似乎C和Clojure經常用

1熱度

6回答

hadoop映射器靜態初始化

我有一個代碼片段，我正在使用一個靜態代碼塊來初始化一個變量。 public static class JoinMap extends Mapper<IntWritable, MbrWritable, LongWritable, IntWritable> { ....... public static RTree rt = null; static

2熱度

1回答

Mongodb MapReduce連接字符串？

我見過的所有MongoDB MapReduce示例都涉及到計數/添加數字。我需要組合字符串，它看起來像MapReduce是該作業的最佳工具。我有這種格式的大型MongoDB集合： {name: userone, type: typeone} {name: usertwo, type: typetwo} {name: userthree, type: typeone} 每個名稱只有一種類型，

2熱度

4回答

對大型數據庫的替代

我有一個數據庫，其中有一個表在一個表中有數十億行，我有過去5年的數據。我試圖以各種可能的方式優化數據，但延遲並沒有減少。我知道有一些解決方案，比如使用水平分割和垂直分割。但我不確定任何開源實現和開發所需的開發時間。有沒有人有使用這種系統的經驗？謝謝。