pyspark管道錯誤代碼下面的代碼

from pyspark.sql import * 
from pyspark import SQLContext 
sqc=SQLContext(sc) 
input=sc.textFile("file:///home/cloudera/Desktop/uber.txt") 
df=input.map(lambda x:x.split(",")) 
df=sqc.createDataFrame(input.map(lambda x:x.split(",")) 
input.map(lambda r:Row(basedid=r[0],dt=r[1],nveh=int(r[2]),ncus=int(r[3])))))

當我執行上面的代碼時，我得到以下錯誤。pyspark管道錯誤代碼下面的代碼

TypeError: 'PipelinedRDD' object is not callable

來源

2017-08-31 nagamani.k

最後你的代碼行應該

input.map(lambda r: r.split(",")).map(lambda r:Row(basedid=r[0],dt=r[1],nveh=int(r[2]),ncus=int(r[3])))

，並在最後一行的末尾刪除多餘的括號。

來源

2017-08-31 05:52:47 ashwinids

pyspark管道錯誤代碼下面的代碼

回答

相關問題