pyspark

    0熱度

    1回答

    我已經編寫了一個非常簡單的python腳本來測試我的火花流的想法,並計劃在我的本地機器上運行它來混亂一點點。下面是一個命令行: spark-submit spark_streaming.py localhost 9999 但終端丟給我一個錯誤: Error executing Jupyter command '<the/spark_streaming.py/file/path>': [Errn

    0熱度

    2回答

    我在Spark中使用dataframe以tablular格式拆分和存儲數據。我在文件中的數據看起來如下 - {"click_id": 123, "created_at": "2016-10-03T10:50:33", "product_id": 98373, "product_price": 220.50, "user_id": 1, "ip": "10.10.10.10"} {"click_i

    0熱度

    1回答

    說,我有some_col列 df_1 = df_1.repartition(50, 'some_col') df_2 = df_2.repartition(50, 'some_col') df_3 = df_1.join(df_2, on='some_col') 2個星火DataFrames我認爲df_3應該由some_col也劃分,有50個分區,但我的實驗表明,至少在過去的條件是不正確

    0熱度

    1回答

    我以前使用conda構建了pyspark環境來打包所有的依賴關係,並在運行時將它們發送到所有節點。以下是我創造環境: `conda/bin/conda create -p conda_env --copy -y python=2 \ numpy scipy ffmpeg gcc libsndfile gstreamer pygobject audioread librosa` `zip -r

    0熱度

    1回答

    我具有低於 +++++++++++++++++++++ colA | colB | colC | +++++++++++++++++++++ 123 | 3 | 0| 222 | 0 | 1| 200 | 0 | 2| 一個數據幀爲數據幀顯示的值I要爲1的值來代替colB和colC的值如果它們是大於0 我能夠使用na.fill函數,如果我需要填充0的零。但我不知道如何做到這一點。

    0熱度

    1回答

    我有一個python火花文件: from pyspark.sql import Row from pyspark.sql import SparkSession from pyspark.sql import SQLContext import pyspark.sql.functions as psf import json spark = SparkSession \ .b

    1熱度

    1回答

    我在AWS S3中有一個CSV文件,正在加載到AWS Glue,即用於對來自S3的源數據文件應用轉換。它提供了PySpark腳本環境。數據看起來有點像這樣: "ID","CNTRY_CD","SUB_ID","PRIME_KEY","DATE" "123","IND","25635525","11243749772","2017-10-17" "123","IND","25632349",

    0熱度

    1回答

    我有一個數據幀中pyspark: ratings = spark.createDataFrame( sc.textFile("transactions.json").map(lambda l: json.loads(l)), ) ratings.show() +--------+-------------------+------------+----------+--------

    -1熱度

    1回答

    假設我有以下日期時間列,如下所示。我想將字符串中的列轉換爲日期時間類型,這樣我就可以提取月份,日期和年份等。 +---+------------+ |agg| datetime| +---+------------+ | A|1/2/17 12:00| | B| null| | C|1/4/17 15:00| +---+------------+ 我曾嘗試下面的下面的代碼,但在d

    0熱度

    1回答

    我有下面的代碼創建如同下面的數據幀: ratings = spark.createDataFrame( sc.textFile("myfile.json").map(lambda l: json.loads(l)), ) ratings.registerTempTable("mytable") final_df = sqlContext.sql("select * from