1
我有一個場景,我讀取一個文件作爲字符串,我需要比較它與表做一些操作。如何將一個數據框的模式應用於另一個數據框?
df1 = sparkContext.parallelize(Seq(1,"aa")).toDF("Col1","Col2") // file
df2 = spark.sql("select * from table")
因此,df1是從兩個列作爲String的文件,而df2的架構是Int和String。這只是一個示例,我有很多列可供選擇,不能提及每個列名。有沒有辦法將df2的列模式實現爲df1?或者是否可以從表中選擇*作爲字符串? 示例一樣,
spark.sql("select cast(* as String) from table")
如果你是從文件中讀取,使用databricks包。該包會自動推斷架構,而且您可以提供自己的架構。 –
你想和誰比較?給一些樣品。還要提到你已經嘗試了什麼,以及你最困難的部分是什麼? –