pyspark-sql

    3熱度

    1回答

    我有一個表,其中包含id,偏移量,文本。假設輸入: id offset text 1 1 hello 1 7 world 2 1 foo 我想輸出,如: id text 1 hello world 2 foo 我使用: df.groupby(id).agg(concat_ws("",collect_list(text)) 但我不知道如何保證文本的順序。我在groupby

    0熱度

    1回答

    我有一個像下面的照片一樣的數據框。我想創建一個培訓和測試集。數據集按CustomerID和InvoiceNo排序。對於每個客戶,我希望除了該客戶的最後2行以外的每行都作爲培訓集,而每個客戶的第二行到最後一行將成爲培訓集。 結果將是理想的1個巨大的訓練集和1個測試集。 PySpark有沒有一種有效的方法?在此先感謝了很多的幫助

    0熱度

    1回答

    我正在pyspark開發一個spark-flask應用程序。我使用pyspark 2.20這裏是我的代碼 import re from tkinter import* import json from pyspark.sql import HiveContext #from pyspark.sql import SparkSession from flask import Flask

    3熱度

    2回答

    我想使用AWS Glue將一些csv數據轉換爲orc。 ETL任務我創建生成以下PySpark腳本: import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.co

    1熱度

    1回答

    我有一個數據幀有多個列,其中兩個類型爲pyspark.sql.TimestampType。我想過濾這個數據幀到這兩列之間的時間差小於一個小時的行。 我目前正在試圖做到這一點,像這樣: examples = data.filter((data.tstamp - data.date) < datetime.timedelta(hours=1)) 但這種失敗,出現以下錯誤信息: org.apache.s

    0熱度

    1回答

    我有一個pyspark RDD(myRDD),該ID的可變長度列表,如 [['a', 'b', 'c'], ['d','f'], ['g', 'h', 'i','j']] 我有一個pyspark數據幀(myDF)列ID和value。 我想查詢myDF與查詢: outputDF = myDF.select(F.collect_set("value")).alias("my_values").wh

    1熱度

    1回答

    Apache Spark如何檢測重複行? 的原因,我問的是,我想有一個稍微不同的行爲: 在設定的用於重複檢測列,對於他們中的一些(這是double型)我想是重複檢測基於兩個值之間的差異低於某個閾值(由我指定)。 我想這可能會使用crossJoin()與適當的where聲明後,但是,我希望有一個更優雅的解決方案? 謝謝!

    0熱度

    1回答

    我試圖用PySpark 2.1.0 >>> from os.path import expanduser, join, abspath >>> from pyspark.sql import SparkSession >>> from pyspark.sql import Row >>> spark = SparkSession.builder \ .master("local"

    0熱度

    1回答

    我正在使用sql.functions.unix_timestamp成功地將時間戳數據格式的日期(y-m-d,yyyyMMdd等)轉換爲時間戳。 問題是,當日期使用一個月或一天的縮寫名稱,如 1991-Aug-09 Fri 有什麼辦法只使用原生的火花功能來實現轉換? (免責聲明:我知道我可以使用python的功能做到這一點,它只是好奇)

    0熱度

    1回答

    我在Apache上運行星火一些SQL查詢時面臨很長的等待時間。爲了簡化該查詢,我跑我的計算以順序的方式:每個查詢的輸出被存儲爲臨時表(.registerTempTable(「TEMP」)),所以它可以在下面的SQL查詢中使用等等。 ..但是查詢花費了太多時間,而在「純Python」代碼中,只需要幾分鐘。 sqlContext.sql(""" SELECT PFMT.* , DICO_S