pyspark

0熱度

1回答

我已經編寫了一個非常簡單的python腳本來測試我的火花流的想法，並計劃在我的本地機器上運行它來混亂一點點。下面是一個命令行： spark-submit spark_streaming.py localhost 9999 但終端丟給我一個錯誤： Error executing Jupyter command '<the/spark_streaming.py/file/path>': [Errn

0熱度

2回答

使用spark python分割dataFrame

我在Spark中使用dataframe以tablular格式拆分和存儲數據。我在文件中的數據看起來如下 - {"click_id": 123, "created_at": "2016-10-03T10:50:33", "product_id": 98373, "product_price": 220.50, "user_id": 1, "ip": "10.10.10.10"} {"click_i

0熱度

1回答

加入兩個具有相同分區的DataFrame後，哪些屬性具有Spark DataFrame？

說，我有some_col列 df_1 = df_1.repartition(50, 'some_col') df_2 = df_2.repartition(50, 'some_col') df_3 = df_1.join(df_2, on='some_col') 2個星火DataFrames我認爲df_3應該由some_col也劃分，有50個分區，但我的實驗表明，至少在過去的條件是不正確

0熱度

1回答

壓縮Conda環境打破Audioread的後端（Python/Pyspark）

我以前使用conda構建了pyspark環境來打包所有的依賴關係，並在運行時將它們發送到所有節點。以下是我創造環境： `conda/bin/conda create -p conda_env --copy -y python=2 \ numpy scipy ffmpeg gcc libsndfile gstreamer pygobject audioread librosa` `zip -r

0熱度

1回答

PySpark：替換基於準則

我具有低於 +++++++++++++++++++++ colA | colB | colC | +++++++++++++++++++++ 123 | 3 | 0| 222 | 0 | 1| 200 | 0 | 2| 一個數據幀爲數據幀顯示的值I要爲1的值來代替colB和colC的值如果它們是大於0 我能夠使用na.fill函數，如果我需要填充0的零。但我不知道如何做到這一點。

0熱度

1回答

存儲蟒蛇火花數據到一個列表，並通過作爲參數

我有一個python火花文件： from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql import SQLContext import pyspark.sql.functions as psf import json spark = SparkSession \ .b

1熱度

1回答

如何檢查列的數值是否包含通過SQL查詢的字母

我在AWS S3中有一個CSV文件，正在加載到AWS Glue，即用於對來自S3的源數據文件應用轉換。它提供了PySpark腳本環境。數據看起來有點像這樣： "ID","CNTRY_CD","SUB_ID","PRIME_KEY","DATE" "123","IND","25635525","11243749772","2017-10-17" "123","IND","25632349",

0熱度

1回答

添加列到數據幀和更新pyspark

我有一個數據幀中pyspark： ratings = spark.createDataFrame( sc.textFile("transactions.json").map(lambda l: json.loads(l)), ) ratings.show() +--------+-------------------+------------+----------+--------

-1熱度

1回答

從Pyspark的字符串列中創建datetime

假設我有以下日期時間列，如下所示。我想將字符串中的列轉換爲日期時間類型，這樣我就可以提取月份，日期和年份等。 +---+------------+ |agg| datetime| +---+------------+ | A|1/2/17 12:00| | B| null| | C|1/4/17 15:00| +---+------------+ 我曾嘗試下面的下面的代碼，但在d

0熱度

1回答

解析數據FRAM添加新的列和更新列pyspark

我有下面的代碼創建如同下面的數據幀： ratings = spark.createDataFrame( sc.textFile("myfile.json").map(lambda l: json.loads(l)), ) ratings.registerTempTable("mytable") final_df = sqlContext.sql("select * from