hivecontext

0熱度

1回答

我在pyspark中使用Dataframe。我有一個表，如表1所示。我需要得到表2其中： num_category - 這是多少型動物類別每個ID 總和（計數） - 這是第三列的表1中每個ID的總和。實施例：表1 id |category | count 1 | 4 | 1 1 | 3 | 2 1 | 1 | 2 2 | 2 | 1 2 | 1 | 1 表2 id |num_c

0熱度

1回答

使用Spark和Scala將數據插入Hive Table的問題

我是Spark的新手。這是我想要做的事情。我創建了兩個數據流;第一個從文本文件讀取數據並使用hivecontext將其註冊爲臨時表。另一個持續從Kafka獲得RDD，對於每個RDD，它創建數據流並將內容註冊爲可臨時的。最後，我將這兩個臨時表連接在一個鍵上以獲得最終結果集。我想將結果集插入配置單元表中。但我沒有想法。試圖遵循一些實例，但只能創建一個列中有一列的表格，並且不可讀。你能告訴我如何將結果

1熱度

1回答

星火SQL讀取JSON文件從HDFS失敗

我這樣的代碼： val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) import sqlContext.implicits._ val customers = sqlContext.read.json("jsonfilepath") 在火花外殼出現的錯誤，我不明白這一點：？ 17/06/19 09:59:04 ERR

1熱度

1回答

HiveContext - 無法訪問在蜂巢映射表的HBase作爲外部表

我試圖訪問在星火使用HiveContext蜂巢映射HBase的表。但我得到ClassNotFoundException例外..下面是我的代碼。 import org.apache.spark.sql.hive.HiveContext val sqlContext = new HiveContext(sc) val df = sqlContext.sql("select * from dbn.h

0熱度

2回答

如何從JavaSparkContext

在一些星火代碼得到HiveContext，我已經看到了程序員使用這樣的代碼來創建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

1熱度

2回答

星火：無法從蜂巢表中讀取數據

我創建了一個Maven項目作爲pom.xml <spark.version>1.3.0</spark.version> <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>${

0熱度

1回答

無法使用火花在配置單元上寫數據

我正在使用spark1.6。我正在使用spark上下文創建hivecontext。當我將數據保存到配置單元時，它會給出錯誤。我正在使用cloudera vm。我的配置單元位於cloudera虛擬機內，並在我的系統中啓動。我可以使用IP訪問虛擬機。我已經啓動了虛擬機上的節儉服務器和hiveserver2。我有hive.metastore.uris val hiveContext = new Hive

1熱度

1回答

Spark HiveContext：Spark Engine或Hive引擎？

我想了解火花hiveContext。當我們寫hiveContext像 sqlContext=new HiveContext(sc) sqlContext.sql("select * from TableA inner join TableB on (a=b) ") 是使用星火引擎或蜂房引擎它使用查詢？我相信上面的查詢是通過Spark Engine執行的。但是，如果這就是爲什麼我們需要數據框

0熱度

1回答

在oozie中使用hive上下文失敗的Spark作業

在我們的一個管道中，我們使用spark（java）進行聚合，並使用oozie進行編排。該流水線使用以下幾行將聚合數據寫入ORC文件。 HiveContext hc = new HiveContext(sc); DataFrame modifiedFrame = hc.createDataFrame(aggregateddatainrdd, schema); modifiedFrame.wr

0熱度

2回答

如何在通過DataFrame查詢計數查詢時獲取整數值？

我寫這個代碼來獲取數的整數值指定表： sc = SparkContext("local", "spar") hive_context = HiveContext(sc) hive_context.sql("use zs_trainings_trainings_db") df = hive_context.sql("select count(*) from ldg_sales")