pyspark-sql

0熱度

1回答

我正在使用PySpark SQL，我想從RedShift檢索表，將它們保存在內存中，然後應用一些連接和轉換。我想應用與內存數據的連接和轉換，而不是將通過轉換創建的sql計劃直接應用於Redshift。當我檢索數據時，它只保存模式，對嗎？如果我使用createTempView（）它將視圖保存在sparkcontext中，但不是數據，對吧？如果我在獲取數據框後使用cache（），它將數據保存在

0熱度

1回答

Pyspark轉換RDD元組到數據幀

我有一個元組的RDD，其中前兩行是這樣的： [[('n', 12.012457082117459), ('s', 0.79112758892014912)], [('t', 3.6243409329763652),('vn', 3.6243409329763652),('n', 52.743253562212828),('v', 11.644347760553064)]] 在每個元組中，第一

0熱度

1回答

如何在Pyspark中連接/追加多個Spark數據框列？

如何使用Pyspark數據框做pand.concat（[df1，df2]，axis ='columns'）的等效熊貓？我GOOGLE了，找不到一個好的解決方案。 DF1 var1 3 4 5 DF1 var2 var3 23 31 44 45 52 53 Expected output dataframe

1熱度

1回答

PySpark每週發生的計算

我正在計算一個詞的每週發生次數。也就是說，本週每個單詞是否比前一週更頻繁。爲此，我有點卡住了。我做了以下內容： m = sc.parallelize(["oded,12-12-2018", "oded,12-03-2018", "oded,12-12-2018", "oded,12-06-2018", "oded2,12-02-2018", "oded2,12-02-2018"]) m

0熱度

2回答

爲什麼PySpark中的agg（）只能一次總結一列？

對於下面的數據幀 df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High']) 當我試圖找到分鐘&最多我只在輸出端獲得最小值。 df.agg({'High':'max','High':'min'}).show() +-----------+ |min(High) | +----

0熱度

1回答

Spark Dataframe是否支持針對數據庫的轉換？

當我拿到表PySpark df1 = session.read.jdbc(url=self.url, table=self.table, properties={"driver": self.driver, "user": self.user, "password": self.password}) 或

0熱度

1回答

添加sql server jar到pyspark的類路徑後無法查詢配置單元

配置單元設置正確，我可以在使用pyspark進入repl後使用spark.sql查詢它。我想從sql server讀取表並將其保存爲配置單元。如果啓動repl傳遞在一個jdbc jar像pyspark --driver-class-path sqljdbc4.jar --jars sqljdbc4.jar我可以從sql服務器讀取。但是現在火花不能訪問配置單元。對現有配置表格的任何查詢都會導致Lzo

1熱度

1回答

從RDD管道DF Pyspark

這個問題出現以及踏過我開始尋求幫助，但我還沒有找到一個解決辦法。事實上，你可能會發現你看到的可能的重複數，但我想我把它們都試過在最後幾個小時。據我所知，sqlContext將在這裏做的伎倆，但我接受任何有效的答案。我使用的Spark 2.1 我開始與我從MongoDB的向下拉動的ID列表。輸出示例： [u'182028', u'161936', u'12333', u'120677'] 'ra

0熱度

1回答

如何在Python中檢查UDF函數中的pyspark dataframe列的單元格值爲none或NaN以執行前向填充？

我基本上試圖做一個前向填充插補。以下是該代碼。 df = spark.createDataFrame([(1,1, None), (1,2, 5), (1,3, None), (1,4, None), (1,5, 10), (1,6, None)], ('session',"timestamp", "id")) PRV_RANK = 0.0 def fun(rank): #####

1熱度

1回答

格式爲pyspark.sql.DataFrameWriter.saveAsTable（）

有誰知道我在哪裏可以找到saveAsTable()函數的可用格式列表pyspark.sql.DataFrameWriter？在the documentation它只是說「用於保存的格式」。我看到的每個例子都使用了「鑲木地板」，但是我找不到其他的東西。具體而言，我想以某種方式從pyspark節省到羽毛。謝謝！