word-count

2熱度

4回答

我試圖讓字的平均數在我的特徵向量中的R one <- c(9, 23, 43) two <- c("this is a new york times article.", "short article.", "he went outside to smoke a cigarette.") mydf <- data.frame(one, two) mydf # one t

2熱度

2回答

Hadoop的Word百分比程序

我正在着手着名的WordCount程序的稍微改進版本，該程序應該輸出本書所佔百分比。例如： ... war 0.00002332423% peace 0.0034234324% ... 基本上，我需要統計所有的單詞，統計每個單詞的出現次數，然後將這組數值除以總數。所以應該有至少兩項工作：作業1 注意到input目錄，併產生兩個輸出目錄：output1和output2 映射：寫對(wor

1熱度

1回答

得到的話數列SQL

以下查詢 SELECT * FROM table; SELECT REGEXP_REPLACE(description || '!', '[^[:punct:]]') FROM table; SELECT REGEXP_REPLACE (description, '[' || REGEXP_REPLACE (description || '!', '[^[:punct:]]')

0熱度

1回答

如何將輸入文件劃分爲MapReduce的分片/文件

因此，我正在使用Map Reduce框架研究wordcount程序，並最終了解它如何工作以及我需要實現什麼。但是我很困惑如何將單個輸入劃分爲不同的分片，然後使用線程爲每個分片分配一個地圖工作者。我知道你可以創建一個使用Linux命令拆分不同的文件，但我不知道如何將映射工作分配給每個文件然後從主文件非常感謝

2熱度

1回答

Hadoop Streaming using C

我必須使用C編寫Hadoop Streaming程序。我一直在嘗試在線查找WordCount程序，但沒有取得任何成功。我將不勝感激，如果有人將分享任何C Hadoop的流節目感謝

0熱度

1回答

從本地複製到HDFS的每個文件的兩個副本

我在程序中使用fs.copyFromLocalFile（本地路徑，Hdfs dest路徑）。我每次都在刪除HDFS上的目標路徑，並從本地機器複製文件。但是，從本地路徑複製文件並在其上實現地圖縮小後，會生成每個文件的兩個副本，因此字數會加倍。爲了清楚起見，我將「Home/user/desktop/input /」作爲本地路徑，HDFS dest路徑爲「/ input」。當我檢查HDFS目標路徑

1熱度

1回答

在Hadoop中解釋Wordcount

**我想知道以下幾行的含義，我是java的新手，這是我的任務的一部分。 public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { //According to my knowledge we are using this to set

0熱度

2回答

如何擺脫東西不是字，說週期等一小字數方法

我只想用java爲一篇短文寫一個簡單的字數統計方法。但是，我怎麼能擺脫不是一個字，說週期等。謝謝！

0熱度

2回答

的MapReduce在MPI

我想在這個數據集使用字數： http://snap.stanford.edu/data/web-Movies.html 我無法找到互聯網，這將有助於我這樣做的程序。請提出建議嗎？

1熱度

4回答

Python的單詞計數

的遞減順序我使用這個代碼來算詞彙出現在文本文件的頻率： #!/usr/bin/python file=open("out1.txt","r+") wordcount={} for word in file.read().split(): if word not in wordcount: wordcount[word] = 1 else: word