1
我是Spark新手。Spark將rdd字段值替換爲另一個值
我可以用看在我elasticsearch數據庫中的第一RDD的內容:
print(es_rdd.first())
>>>(u'1', {u'name': u'john'})
我也可以用得到我的DSTREAM所需的值:
kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list":brokers})
name=kvs.map(lambda x: x[1])
name.pprint()
>>>>robert
我打算更換rdd「name」:「john」with「robert」,然後在彈性搜索中使用saveAsNewAPIHadoopFile()插入新的rdd
我該怎麼做? 有沒有辦法將「robert」映射到一個新的rdd中?喜歡的東西..
new_rdd=es_rdd.map(lambda item: {item[0]:name})
感謝