spark-dataframe

0熱度

1回答

我有一個火花數據框（input_dataframe），在該數據幀的數據看起來像如下： id value 1 Ab 2 Ai 3 aB 我要選擇數據，其中值是AB（案件不應該物質）下面是代碼，我使用了相同的： input_dataframe.where(col('value').isin("ab")) 但id不取我所需的輸出。有人可以幫助我嗎？任何幫助將不勝

1熱度

1回答

以capnp（cap'n proto）格式輸出pyspark數據幀

我的任務是輸出一個Pyspark數據幀爲cap'n proto（.capnp）格式。有沒有人有最好的方式來做到這一點的建議？我有一個capnp模式，我看到capnp的python包裝（http://capnproto.github.io/pycapnp/），但我仍然不確定從數據框到capnp的最佳方式是什麼。

0熱度

1回答

分裂火花數據幀和基於一個列值

計算平均我有兩個dataframes：第一數據幀classRecord有10個不同的條目像以下： Class, Calculation first, Average Second, Sum Third, Average 第二數據幀studentRecord具有圍繞50K條目像以下： Name, height, Camp, Class Shae, 152, yellow, first

2熱度

1回答

如何根據數據類型過濾數據？

由於數據是這樣的： val my_data = sc.parallelize(Array( "Key1, foobar, 10, twenty, 20", "Key2, impt, 11, sixty, 6", "Key3, helloworld, 110, seventy, 9")) 我想過濾並創建一個key,value RDD象下面這樣： key1, fooba

3熱度

2回答

在非空WrappedArray上過濾數據幀

我的問題是我必須在列表中找到這些不是空的。當我使用過濾器功能不是空的，比我得到的每一行。我的程序代碼如下所示： ... val csc = new CassandraSQLContext(sc) val df = csc.sql("SELECT * FROM test").toDF() val wrapped = df.select("fahrspur_liste") wrapped

1熱度

2回答

使用RDD列表作爲數據幀過濾器操作的參數

我有以下代碼片段。 from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.sql.types import * sc = SparkContext() spark = SparkSession.builder.appName("test").getOrCreate() sc

0熱度

1回答

是否有可能從Scala調用Python函數（spark）

我正在創建一個需要使用python編寫的函數將列添加到數據框的Spark任務。其餘的處理是使用Scala完成的。我已經找到了如何調用從pyspark一個Java/Scala的函數的例子： https://community.hortonworks.com/questions/110844/is-it-possible-to-call-a-scala-function-in-pythonp.htm

0熱度

1回答

如何在spark scala或pyspark中清理JVM堆內存

如何在spark scala流應用程序中清理JVM佔用的內存。我正在運行60秒間隔的流式作業。對於我的第一個六小時之後沒有問題，我正面臨着JVM堆內存問題。有沒有什麼辦法編程，我可以在火花Scala中清理我的GC或JVM內存。在我的應用程序中，我使用Dataframe，registertemptable也結束了我的程序，我正在將結果寫入HDFS。目前在我的應用程序中引發SQL上下文級別，我正在解

-1熱度

1回答

Pyspark變換方法變換方法

星火Scala的API有Dataset#transform方法，可以很容易鏈定製數據幀的轉換等，使得這相當於Scala的數據集＃： val weirdDf = df .transform(myFirstCustomTransformation) .transform(anotherCustomTransformation) 我沒有看到同等transform方法爲pyspar

0熱度

1回答

PySpark查詢多個JSON文件

我已經上傳到Spark 2.2.0許多使用命令（python spark）的目錄中包含的JSONL文件（結構與它們相同）：df = spark.read.json（mydirectory）df .createGlobalTempView（「MyDatabase」）sqlDF = spark.sql（「SELECT count（*）FROM MyDatabase」）sqlDF.show（）。上傳工