我有幾個文本文件,我正在計算所有這些文本文件合計在一起的字母。例如text1.txt包含「Stackoverflow非常酷」。我期待得到總字母數字符在阿帕奇計數
Q
字符在阿帕奇計數
0
A
回答
0
將所有使用通配符*的文件加載到chararray類型的字段中。將該行分成單詞,然後分成字母和數字。
A = LOAD '/path/text*.txt' AS (lines:chararray);
B = FOREACH A GENERATE FLATTEN(TOKENIZE(LOWER(lines))) AS words;
C = FOREACH B GENERATE FLATTEN(TOKENIZE(REPLACE(words,'','|'), '|')) AS letters;
D = GROUP C BY letters;
E = FOREACH D GENERATE COUNT(C), group;
DUMP E;
這將是很高興看到你已經嘗試過。你必須更好地展示你已經嘗試過的以及你受到攻擊的地方。 –