1
我有樣本數據集看起來是這樣的:計數主題標籤拉丁
tmj_dc_mgmt, Washington, en, 483, 457, 256, ['hiring', 'BusinessMgmt', 'Washington', 'Job']
SRiku0728, 福山市, ja, 6705, 357, 273, ['None']
BesiktaSeyma_, Akyurt, tr, 12921, 1801, 283, ['None']
AnnaKFrick, Virginia, en, 5731, 682, 1120, ['Investment', 'PPP', 'Bogota', 'jobs']
Accprimary, Manchester, en, 1650, 268, 404, ['None']
內方括號的數據被井號標籤,我希望計算整個列表頂部10#標籤。
我已經達到這麼遠,不知道如何進一步移動。
twitter_feed = LOAD '/twitter-data-mining/15' USING PigStorage(',');
hash_tags = FOREACH twitter_feed GENERATE $7;
fallten = FILTER hash_tags BY $1 MATCHES '\w+'|'\w+(\s\w+)*'
DUMP fallten;
方向是否正確任何幫助,將不勝感激
謝謝!
fallten包含什麼?另外使用','的數據不會給你正確的結果。 –
fallten並沒有給我正確的結果,我想知道如果我可以提取單引號內只有哈希標籤。 –