2016-09-06 93 views
0

解析文件我有條目這樣無法使用Java API星火

10.28 INFO [EFKLogger] - POGUpdateTenestenerServiceImpl: Entering listener with object 624866045533 

現在利用星火我要算的隊列數量擊中每隔一小時一個日誌文件。隊列是POGUpdateTenestenerServiceImpl。現在我想要一個只包含時間和隊列的JAVARDD,所以我可以對它執行操作。我是新的頂級火花,只有找到方法來創建包含所有單詞或整行的RDD。我只需要一行兩個單詞。我怎樣才能做到這一點

回答

1

,您應該使用SparkContext的textFile功能來讀取文件:

這裏是Scala的例子,它可以很容易地轉換成Java

val text = sc.textFile("data.csv") //Read the file 
val words = text.map(line=> line.split(" ")) //Break the line to words 

現在的話說就是一連串的單詞,你可以拿走第一秒,並隨你做他想做的事。

+0

謝謝我反正使用地圖功能。您的解決方案也適用 –