pyspark

0熱度

1回答

我有一個LDA的一個pyspark數據幀像這樣的結果： topicIndices.filter("topic > 3").show(10, truncate=True) +-----+--------------------+--------------------+ |topic| termIndices| termWeights| +-----+-----------------

1熱度

1回答

ipython不被識別爲內部或外部命令（pyspark）

我已經安裝了spark版本：spark-2.2.0-bin-hadoop2.7。我使用Windows 10 OS 我的Java版本1.8.0_144 我已經把我的環境變量： SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

1熱度

2回答

根據另一列的值更改pyspark列

我有一個名爲df的pyspark數據框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清單： holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type爲「HOLIDAY」如果「數據」是holyd

0熱度

2回答

火花短路，排序和懶惰地圖

我正在處理一個優化問題，該問題涉及在對象集合上最小化昂貴的地圖操作。天真溶液會是這樣的 rdd.map(expensive).min() 然而，映射函數將返回保證是值> = 0。因此，如果任何一個的結果是0，I可以採取作爲答案和不需要計算其餘的地圖操作。是否有使用Spark做到這一點的慣用方式？

0熱度

2回答

如何在pyspark中設置拆分和減速器的數量

我想在amazon EMR實例上運行pyspark以從dynamodb讀取數據，並想知道如何在代碼中設置拆分和工人數量？我遵循以下兩個文檔中的說明來提供當前連接到dynamoDB並讀取數據的代碼。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

2熱度

2回答

運行計數命令時出現點火不一致

有關Spark計算不一致的問題。這是否存在？例如，我運行完全一樣的命令兩次，例如： imp_sample.where(col("location").isNotNull()).count() 而且每次運行它的時候我收到稍有不同的結果（141830，然後142314）！或者這樣： imp_sample.where(col("location").isNull()).count() 並獲

2熱度

1回答

Spark：將Scala ML模型加載到PySpark

我在scala Spark中訓練了一個LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我檢查了我保存的模型，它包含兩個文件夾：元數據和數據。然而，當我嘗試這種模式加載到PySpark，我得到了一個錯誤說： model = LDAMod

1熱度

1回答

pyspark：按值將單個RDD分割爲多個RDD

我無法找到答案。如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每個值都是一個列表。有沒有方法可以拆分RDD，使得它成爲 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 現在在哪裏每個值是列表的元素之一，搭配的關鍵。我大致知

0熱度

3回答

pyspark RDD - 在一些指標加元組的列表

我有一個RDD看起來像這樣 [(3,6,7), (2,5,7), (4,3,7)] 我想獲得的平均第一要素，以及第二個元素之和的總和第三要素。這是輸出是什麼樣子： (3,14,21) 是否有可能做到這一點使用pyspark？

0熱度

1回答

PySpark：數據幀 - 轉換結構數組