pyspark-sql

    0熱度

    1回答

    我正在使用PySpark SQL,我想從RedShift檢索表,將它們保存在內存中,然後應用一些連接和轉換。 我想應用與內存數據的連接和轉換,而不是將通過轉換創建的sql計劃直接應用於Redshift。 當我檢索數據時,它只保存模式,對嗎? 如果我使用createTempView()它將視圖保存在sparkcontext中,但不是數據,對吧? 如果我在獲取數據框後使用cache(),它將數據保存在

    0熱度

    1回答

    我有一個元組的RDD,其中前兩行是這樣的: [[('n', 12.012457082117459), ('s', 0.79112758892014912)], [('t', 3.6243409329763652),('vn', 3.6243409329763652),('n', 52.743253562212828),('v', 11.644347760553064)]] 在每個元組中,第一

    0熱度

    1回答

    如何使用Pyspark數據框做pand.concat([df1,df2],axis ='columns')的等效熊貓? 我GOOGLE了,找不到一個好的解決方案。 DF1 var1 3 4 5 DF1 var2 var3 23 31 44 45 52 53 Expected output dataframe

    1熱度

    1回答

    我正在計算一個詞的每週發生次數。也就是說,本週每個單詞是否比前一週更頻繁。爲此,我有點卡住了。我做了以下內容: m = sc.parallelize(["oded,12-12-2018", "oded,12-03-2018", "oded,12-12-2018", "oded,12-06-2018", "oded2,12-02-2018", "oded2,12-02-2018"]) m

    0熱度

    2回答

    對於下面的數據幀 df=spark.createDataFrame(data=[('Alice',4.300),('Bob',7.677)],schema=['name','High']) 當我試圖找到分鐘&最多我只在輸出端獲得最小值。 df.agg({'High':'max','High':'min'}).show() +-----------+ |min(High) | +----

    0熱度

    1回答

    當我拿到表PySpark df1 = session.read.jdbc(url=self.url, table=self.table, properties={"driver": self.driver, "user": self.user, "password": self.password}) 或

    0熱度

    1回答

    配置單元設置正確,我可以在使用pyspark進入repl後使用spark.sql查詢它。我想從sql server讀取表並將其保存爲配置單元。如果啓動repl傳遞在一個jdbc jar像pyspark --driver-class-path sqljdbc4.jar --jars sqljdbc4.jar我可以從sql服務器讀取。但是現在火花不能訪問配置單元。對現有配置表格的任何查詢都會導致Lzo

    1熱度

    1回答

    這個問題出現以及踏過我開始尋求幫助,但我還沒有找到一個解決辦法。事實上,你可能會發現你看到的可能的重複數,但我想我把它們都試過在最後幾個小時。據我所知,sqlContext將在這裏做的伎倆,但我接受任何有效的答案。我使用的Spark 2.1 我開始與我從MongoDB的向下拉動的ID列表。 輸出示例: [u'182028', u'161936', u'12333', u'120677'] 'ra

    0熱度

    1回答

    我基本上試圖做一個前向填充插補。以下是該代碼。 df = spark.createDataFrame([(1,1, None), (1,2, 5), (1,3, None), (1,4, None), (1,5, 10), (1,6, None)], ('session',"timestamp", "id")) PRV_RANK = 0.0 def fun(rank): #####

    1熱度

    1回答

    有誰知道我在哪裏可以找到saveAsTable()函數的可用格式列表pyspark.sql.DataFrameWriter?在the documentation它只是說「用於保存的格式」。 我看到的每個例子都使用了「鑲木地板」,但是我找不到其他的東西。具體而言,我想以某種方式從pyspark節省到羽毛。 謝謝!