pyspark-sql

    0熱度

    1回答

    在讀取不一致的模式寫入parquet文件組時,我們遇到了有關模式合併的問題。 在切換到手動指定模式時出現以下錯誤。任何指針都會有幫助。 java.lang.UnsupportedOperationException:未實現類型:StringType 在org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnReader.

    0熱度

    1回答

    我在pycharm from pyspark.sql.functions import max, min, col中使用該行。 但是,它不能識別這些功能,即使它識別出log - 來自sql.functions的功能。爲什麼max,min和col得到認可? 我的pyspark版本是2.2,我的python版本是3.6(通過anaconda)。

    0熱度

    1回答

    簡單的問題,從一個新手在pySpark: 我有一個DF,我想作一個條件aggragation,返回聚集的結果,如果分母大於0否則爲0 我試探性產生不同的一個錯誤: groupBy=["K"] exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!=0 else 0 ] grouped_df=new_df.groupby(*groupBy).agg(*

    0熱度

    1回答

    我的數據是這樣 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

    1熱度

    1回答

    雖然在Python學習星火,我無法理解這兩個alias方法及其使用的目的。該documentation顯示它被用來創建新名稱現有DataFrame的副本,然後它們連接在一起: >>> from pyspark.sql.functions import * >>> df_as1 = df.alias("df_as1") >>> df_as2 = df.alias("df_as2") >>> j

    -3熱度

    1回答

    我對Spark和Hadoop世界非常陌生。我已經開始通過互聯網自己學習這些主題。我想知道如何在Spark DataFrame中執行異常檢測,因爲Spark中的DataFrame是不可變的?有沒有可以執行此操作的Spark包或模塊?我爲Spark使用了PySpark API,因此如果有人回覆了PySpark中的這種情況,我將非常感激。如果我在PySPark(Pyhton)的Spark DataFra

    0熱度

    1回答

    「from pyspark.sql.types import Row」與「from pyspark.sql import Row」有什麼不同?

    1熱度

    1回答

    我正在使用以下代碼來每年聚集學生。目的是瞭解每年的學生總數。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_stud

    -1熱度

    1回答

    我有這樣的數據幀我將調用DF1: 我具有第二數據幀,DF2(只有3行): 我想創建DF1一個新的專欄中,我會打電話給total_population_by_year1其中: 總_population_by_year1 =(DF2的內容,如果DF1年份爲DF2年) 換句話說,新的行列將填充每年的總人口。 我迄今所做的: df_tg = DF2.join(DF1[DF1.total_populatio

    0熱度

    2回答

    (SQL味火花本地SQL)說我有一排如: **userId** : String | **assignedEntities** : String JOHN | "ENTITY_1,ENTITIY_2,...,ENTITY_100" ,我想這件事分成「分塊」大小2的名單,但使用不同的密鑰,以確定它們: **userId** | **assignedEntities** JOHN_1 | "E