pyspark-sql

0熱度

1回答

pySpark：java.lang.UnsupportedOperationException：未實現類型：StringType

在讀取不一致的模式寫入parquet文件組時，我們遇到了有關模式合併的問題。在切換到手動指定模式時出現以下錯誤。任何指針都會有幫助。 java.lang.UnsupportedOperationException：未實現類型：StringType 在org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnReader.

0熱度

1回答

從pyspark.sql.functions輸入max/min/avg/col

我在pycharm from pyspark.sql.functions import max, min, col中使用該行。但是，它不能識別這些功能，即使它識別出log - 來自sql.functions的功能。爲什麼max,min和col得到認可？我的pyspark版本是2.2，我的python版本是3.6（通過anaconda）。

0熱度

1回答

條件aggragation GROUPBY

簡單的問題，從一個新手在pySpark：我有一個DF，我想作一個條件aggragation，返回聚集的結果，如果分母大於0否則爲0 我試探性產生不同的一個錯誤： groupBy=["K"] exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!=0 else 0 ] grouped_df=new_df.groupby(*groupBy).agg(*

0熱度

1回答

如何選擇

我的數據是這樣 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

1熱度

1回答

PySpark中別名方法的用途是什麼？

雖然在Python學習星火，我無法理解這兩個alias方法及其使用的目的。該documentation顯示它被用來創建新名稱現有DataFrame的副本，然後它們連接在一起： >>> from pyspark.sql.functions import * >>> df_as1 = df.alias("df_as1") >>> df_as2 = df.alias("df_as2") >>> j

-3熱度

1回答

pyspark數據框中的異常值檢測

我對Spark和Hadoop世界非常陌生。我已經開始通過互聯網自己學習這些主題。我想知道如何在Spark DataFrame中執行異常檢測，因爲Spark中的DataFrame是不可變的？有沒有可以執行此操作的Spark包或模塊？我爲Spark使用了PySpark API，因此如果有人回覆了PySpark中的這種情況，我將非常感激。如果我在PySPark（Pyhton）的Spark DataFra

0熱度

1回答

from pyspark.sql.types import Row和from pyspark.sql import行

「from pyspark.sql.types import Row」與「from pyspark.sql import Row」有什麼不同？

1熱度

1回答

如何計算pyspark中groupBy後的唯一ID

我正在使用以下代碼來每年聚集學生。目的是瞭解每年的學生總數。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_stud

-1熱度

1回答

與PySpark數據幀不同的長度作爲新的列添加列

我有這樣的數據幀我將調用DF1：我具有第二數據幀，DF2（只有3行）：我想創建DF1一個新的專欄中，我會打電話給total_population_by_year1其中：總_population_by_year1 =（DF2的內容，如果DF1年份爲DF2年）換句話說，新的行列將填充每年的總人口。我迄今所做的： df_tg = DF2.join(DF1[DF1.total_populatio

0熱度

2回答

如何將SQL中的行分成單獨的編號行？

（SQL味火花本地SQL）說我有一排如： **userId** : String | **assignedEntities** : String JOHN | "ENTITY_1,ENTITIY_2,...,ENTITY_100" ，我想這件事分成「分塊」大小2的名單，但使用不同的密鑰，以確定它們： **userId** | **assignedEntities** JOHN_1 | "E