pyspark-sql

3熱度

1回答

我有一個表，其中包含id，偏移量，文本。假設輸入： id offset text 1 1 hello 1 7 world 2 1 foo 我想輸出，如： id text 1 hello world 2 foo 我使用： df.groupby(id).agg(concat_ws("",collect_list(text)) 但我不知道如何保證文本的順序。我在groupby

0熱度

1回答

Pyspark - 從數據框創建訓練集和測試集

我有一個像下面的照片一樣的數據框。我想創建一個培訓和測試集。數據集按CustomerID和InvoiceNo排序。對於每個客戶，我希望除了該客戶的最後2行以外的每行都作爲培訓集，而每個客戶的第二行到最後一行將成爲培訓集。結果將是理想的1個巨大的訓練集和1個測試集。 PySpark有沒有一種有效的方法？在此先感謝了很多的幫助

0熱度

1回答

如何解決java.sql.SQLException：無法打開測試連接到給定的數據庫。pyspark 2.2

我正在pyspark開發一個spark-flask應用程序。我使用pyspark 2.20這裏是我的代碼 import re from tkinter import* import json from pyspark.sql import HiveContext #from pyspark.sql import SparkSession from flask import Flask

3熱度

2回答

使用AWS內部的SQL Glue pySpark腳本

我想使用AWS Glue將一些csv數據轉換爲orc。 ETL任務我創建生成以下PySpark腳本： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.co

1熱度

1回答

基於兩列之間的時間差異過濾pyspark數據幀

我有一個數據幀有多個列，其中兩個類型爲pyspark.sql.TimestampType。我想過濾這個數據幀到這兩列之間的時間差小於一個小時的行。我目前正在試圖做到這一點，像這樣： examples = data.filter((data.tstamp - data.date) < datetime.timedelta(hours=1)) 但這種失敗，出現以下錯誤信息： org.apache.s

0熱度

1回答

pyspark喂一個RDD到另一個使用「在」子句

我有一個pyspark RDD（myRDD），該ID的可變長度列表，如 [['a', 'b', 'c'], ['d','f'], ['g', 'h', 'i','j']] 我有一個pyspark數據幀（myDF）列ID和value。我想查詢myDF與查詢： outputDF = myDF.select(F.collect_set("value")).alias("my_values").wh

1熱度

1回答

Apache Spark如何檢測重複項？它可以被修改嗎？

Apache Spark如何檢測重複行？的原因，我問的是，我想有一個稍微不同的行爲：在設定的用於重複檢測列，對於他們中的一些（這是double型）我想是重複檢測基於兩個值之間的差異低於某個閾值（由我指定）。我想這可能會使用crossJoin()與適當的where聲明後，但是，我希望有一個更優雅的解決方案？謝謝！

0熱度

1回答

捻與PySpark2：錯誤KuduStorageHandler

我試圖用PySpark 2.1.0 >>> from os.path import expanduser, join, abspath >>> from pyspark.sql import SparkSession >>> from pyspark.sql import Row >>> spark = SparkSession.builder \ .master("local"

0熱度

1回答

本機在Spark中的時間戳縮寫日期格式

我正在使用sql.functions.unix_timestamp成功地將時間戳數據格式的日期（y-m-d，yyyyMMdd等）轉換爲時間戳。問題是，當日期使用一個月或一天的縮寫名稱，如 1991-Aug-09 Fri 有什麼辦法只使用原生的火花功能來實現轉換？（免責聲明：我知道我可以使用python的功能做到這一點，它只是好奇）

0熱度

1回答

優化Apache的星火SQL查詢

我在Apache上運行星火一些SQL查詢時面臨很長的等待時間。爲了簡化該查詢，我跑我的計算以順序的方式：每個查詢的輸出被存儲爲臨時表（.registerTempTable（「TEMP」）），所以它可以在下面的SQL查詢中使用等等。 ..但是查詢花費了太多時間，而在「純Python」代碼中，只需要幾分鐘。 sqlContext.sql(""" SELECT PFMT.* , DICO_S