hivecontext

    0熱度

    1回答

    我在pyspark中使用Dataframe。我有一個表,如表1所示。我需要得到表2其中: num_category - 這是多少型動物類別每個ID 總和(計數) - 這是第三列的表1中每個ID的總和。 實施例: 表1 id |category | count 1 | 4 | 1 1 | 3 | 2 1 | 1 | 2 2 | 2 | 1 2 | 1 | 1 表2 id |num_c

    0熱度

    1回答

    我是Spark的新手。這是我想要做的事情。 我創建了兩個數據流;第一個從文本文件讀取數據並使用hivecontext將其註冊爲臨時表。另一個持續從Kafka獲得RDD,對於每個RDD,它創建數據流並將內容註冊爲可臨時的。最後,我將這兩個臨時表連接在一個鍵上以獲得最終結果集。我想將結果集插入配置單元表中。但我沒有想法。試圖遵循一些實例,但只能創建一個列中有一列的表格,並且不可讀。你能告訴我如何將結果

    1熱度

    1回答

    我這樣的代碼: val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) import sqlContext.implicits._ val customers = sqlContext.read.json("jsonfilepath") 在火花外殼出現的錯誤,我不明白這一點:? 17/06/19 09:59:04 ERR

    1熱度

    1回答

    我試圖訪問在星火使用HiveContext蜂巢映射HBase的表。但我得到ClassNotFoundException例外..下面是我的代碼。 import org.apache.spark.sql.hive.HiveContext val sqlContext = new HiveContext(sc) val df = sqlContext.sql("select * from dbn.h

    0熱度

    2回答

    在一些星火代碼得到HiveContext,我已經看到了程序員使用這樣的代碼來創建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

    1熱度

    2回答

    我創建了一個Maven項目作爲pom.xml <spark.version>1.3.0</spark.version> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>${

    0熱度

    1回答

    我正在使用spark1.6。我正在使用spark上下文創建hivecontext。當我將數據保存到配置單元時,它會給出錯誤。我正在使用cloudera vm。我的配置單元位於cloudera虛擬機內,並在我的系統中啓動。我可以使用IP訪問虛擬機。我已經啓動了虛擬機上的節儉服務器和hiveserver2。我有hive.metastore.uris val hiveContext = new Hive

    1熱度

    1回答

    我想了解火花hiveContext。 當我們寫hiveContext像 sqlContext=new HiveContext(sc) sqlContext.sql("select * from TableA inner join TableB on (a=b) ") 是使用星火引擎或蜂房引擎它使用查詢?我相信上面的查詢是通過Spark Engine執行的。但是,如果這就是爲什麼我們需要數據框

    0熱度

    1回答

    在我們的一個管道中,我們使用spark(java)進行聚合,並使用oozie進行編排。 該流水線使用以下幾行將聚合數據寫入ORC文件。 HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame.wr

    0熱度

    2回答

    我寫這個代碼來獲取數的整數值指定表: sc = SparkContext("local", "spar") hive_context = HiveContext(sc) hive_context.sql("use zs_trainings_trainings_db") df = hive_context.sql("select count(*) from ldg_sales")