下面是一個例子。有沒有一種很好的方法來在Spark中添加單詞?
數據集 - dataset.txt
1 banana kiwi orange melon
代碼
scala> val table = sc.textFile("dataset.txt").map(_.split(" "))
scala> table.take(1)
res0: Array[Array[String]] = Array(Array(1, banana , kiwi , orange, melon))
scala> val pairSet = table.map{case Array(key,b,k,o,m) => (key, b+" "+k+" "+o+" "+m)}
scala> pairSet.take(1)
res1: Array[(String, String)] = Array((1, banana kiwi orange melon))
我不知道這是否追加在pairSet
值的部分是有效的。或者,還有更好的方法?
謝謝您的回覆! 是您method'(VAL分裂= x.split( 「 」2) (分割(0),拆分(1)))'比我method'更有效(B +「 」+ K +「 」+ O +「」 + M)'? –
是的,因爲你的情況,你是分裂除了首次出現剩餘的字符串不必要只能稍後再添加它們。 – vdep
哦,是的!非常感謝您的建議! –