pyspark

    0熱度

    1回答

    我有一個LDA的一個pyspark數據幀像這樣的結果: topicIndices.filter("topic > 3").show(10, truncate=True) +-----+--------------------+--------------------+ |topic| termIndices| termWeights| +-----+-----------------

    1熱度

    1回答

    我已經安裝了spark版本:spark-2.2.0-bin-hadoop2.7。 我使用Windows 10 OS 我的Java版本1.8.0_144 我已經把我的環境變量: SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

    1熱度

    2回答

    我有一個名爲df的pyspark數據框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清單: holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type爲「HOLIDAY」如果「數據」是holyd

    0熱度

    2回答

    我正在處理一個優化問題,該問題涉及在對象集合上最小化昂貴的地圖操作。 天真溶液會是這樣的 rdd.map(expensive).min() 然而,映射函數將返回保證是值> = 0。因此,如果任何一個的結果是0,I可以採取作爲答案和不需要計算其餘的地圖操作。 是否有使用Spark做到這一點的慣用方式?

    0熱度

    2回答

    我想在amazon EMR實例上運行pyspark以從dynamodb讀取數據,並想知道如何在代碼中設置拆分和工人數量? 我遵循以下兩個文檔中的說明來提供當前連接到dynamoDB並讀取數據的代碼。 connecting to dynamoDB from pyspark 和Pyspark documentation from pyspark.context import SparkContext

    2熱度

    2回答

    有關Spark計算不一致的問題。這是否存在?例如,我運行完全一樣的命令兩​​次,例如: imp_sample.where(col("location").isNotNull()).count() 而且每次運行它的時候我收到稍有不同的結果(141830,然後142314)! 或者這樣: imp_sample.where(col("location").isNull()).count() 並獲

    2熱度

    1回答

    我在scala Spark中訓練了一個LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我檢查了我保存的模型,它包含兩個文件夾:元數據和數據。 然而,當我嘗試這種模式加載到PySpark,我得到了一個錯誤說: model = LDAMod

    1熱度

    1回答

    我無法找到答案。 如果我有RDD rdd = sc.parallelize([('a', [1,2,3]), ('b',[4,5,6])]) 其中每個值都是一個列表。 有沒有方法可以拆分RDD,使得它成爲 sc.parallelize([('a',1),('a',2),('a',3),('b',4),('b',5),('b'6)]) 現在在哪裏每個值是列表的元素之一,搭配的關鍵。 我大致知

    0熱度

    3回答

    我有一個RDD看起來像這樣 [(3,6,7), (2,5,7), (4,3,7)] 我想獲得的平均第一要素,以及第二個元素之和的總和第三要素。這是輸出是什麼樣子: (3,14,21) 是否有可能做到這一點使用pyspark?

    0熱度

    1回答

    我有以下結構的數據幀: root |-- index: long (nullable = true) |-- text: string (nullable = true) |-- topicDistribution: struct (nullable = true) | |-- type: long (nullable = true) | |-- values: array (nulla