spark-dataframe

    0熱度

    1回答

    我有一個火花數據框(input_dataframe),在該數據幀的數據看起來像如下: id value 1 Ab 2 Ai 3 aB 我要選擇數據,其中值是AB(案件不應該物質) 下面是代碼,我使用了相同的: input_dataframe.where(col('value').isin("ab")) 但id不取我所需的輸出。有人可以幫助我嗎? 任何幫助將不勝

    1熱度

    1回答

    我的任務是輸出一個Pyspark數據幀爲cap'n proto(.capnp)格式。有沒有人有最好的方式來做到這一點的建議? 我有一個capnp模式,我看到capnp的python包裝(http://capnproto.github.io/pycapnp/),但我仍然不確定從數據框到capnp的最佳方式是什麼。

    0熱度

    1回答

    計算平均我有兩個dataframes: 第一數據幀classRecord有10個不同的條目像以下: Class, Calculation first, Average Second, Sum Third, Average 第二數據幀studentRecord具有圍繞50K條目像以下: Name, height, Camp, Class Shae, 152, yellow, first

    2熱度

    1回答

    由於數據是這樣的: val my_data = sc.parallelize(Array( "Key1, foobar, 10, twenty, 20", "Key2, impt, 11, sixty, 6", "Key3, helloworld, 110, seventy, 9")) 我想過濾並創建一個key,value RDD象下面這樣: key1, fooba

    3熱度

    2回答

    我的問題是我必須在列表中找到這些不是空的。當我使用過濾器功能不是空的,比我得到的每一行。 我的程序代碼如下所示: ... val csc = new CassandraSQLContext(sc) val df = csc.sql("SELECT * FROM test").toDF() val wrapped = df.select("fahrspur_liste") wrapped

    1熱度

    2回答

    我有以下代碼片段。 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql.types import * sc = SparkContext() spark = SparkSession.builder.appName("test").getOrCreate() sc

    0熱度

    1回答

    我正在創建一個需要使用python編寫的函數將列添加到數據框的Spark任務。其餘的處理是使用Scala完成的。 我已經找到了如何調用從pyspark一個Java/Scala的函數的例子: https://community.hortonworks.com/questions/110844/is-it-possible-to-call-a-scala-function-in-pythonp.htm

    0熱度

    1回答

    如何在spark scala流應用程序中清理JVM佔用的內存。我正在運行60秒間隔的流式作業。對於我的第一個六小時之後沒有問題,我正面臨着JVM堆內存問題。有沒有什麼辦法編程,我可以在火花Scala中清理我的GC或JVM內存。 在我的應用程序中,我使用Dataframe,registertemptable也結束了我的程序,我正在將結果寫入HDFS。目前在我的應用程序中引發SQL上下文級別,我正在解

    -1熱度

    1回答

    星火Scala的API有Dataset#transform方法,可以很容易鏈定製數據幀的轉換等,使得這相當於Scala的數據集#: val weirdDf = df .transform(myFirstCustomTransformation) .transform(anotherCustomTransformation) 我沒有看到同等transform方法爲pyspar

    0熱度

    1回答

    我已經上傳到Spark 2.2.0許多使用命令(python spark)的目錄中包含的JSONL文件(結構與它們相同):df = spark.read.json(mydirectory)df .createGlobalTempView(「MyDatabase」)sqlDF = spark.sql(「SELECT count(*)FROM MyDatabase」)sqlDF.show()。 上傳工