3
我剛開始使用databricks/pyspark。我使用python/spark 2.1。我已將數據上傳至表格。這個表格是一個充滿字符串的單個列。我希望將映射函數應用於列中的每個元素。我的表加載到數據幀:在DataFrame上應用映射功能
df = spark.table("mynewtable")
我能看到的唯一途徑是別人說的話是將其轉換爲RDD應用映射函數,然後返回到數據框來顯示數據。但是,這牽扯出工作中止階段失敗:
df2 = df.select("_c0").rdd.flatMap(lambda x: x.append("anything")).toDF()
所有我想要做的就是申請任何種類的地圖功能,以我的表中的數據。 例如對列中的每個字符串追加一些東西,或者在字符上執行拆分,然後將其放回到數據框中,以便我可以.show()或顯示它。