hive

0熱度

1回答

我有大約10行 empno,ename,dept,sal,deptno 現在我想導致從每個部門誰是最大SAL的ename一個EMP表。 EX： 12,ravi,manager,20000,10 43,hari,engineer,10000,20 32,sam,clerk,5000,30

1熱度

2回答

不包含具有空值的列的子句

我有一個包含10個奇數列的表，其中之一是「狀態」。我想取其中狀態並不拒絕所有的行，所以我寫了下面的查詢上蜂巢： select * from table1 where status <> 'Rejected' 但是蜂房沒有返回我行，其中的狀態爲空。我改變了查詢 select * from table1 where status <> 'Rejected' or status is Null

1熱度

3回答

使用配置單元SQL提取不同字符之間的字符串

我有一個名爲geo_data_display的字段，其中包含國家，地區和dma。這3個值包含在第一個「=」和第一個「&」之間的字符，第二個「=」和第二個「&」之間的區域和第三個「=」和第三個「=」之間的DMA之間的國家， &「。這是一個可重新生成的表格。國家總是字符，但地區和DMA可以是數字或字符和DMA不存在所有國家。幾個樣本值是： country=us®ion=tx&dma=625&d

1熱度

3回答

處理的黑斑羚

空數據我想了解我使用下表 ╔════╦══════════════╦══════════╗ ║ id ║ name ║ salary ║ ╠════╬══════════════╬══════════╣ ║ 1 ║ cde ║ 5636 ║ ║ 2 ║ asd ║ 148 ║ ║ 3 ║ pwe ║ null ║ ║ 4 ║ lmn ║ 959 ║ ╚═══

1熱度

2回答

是否有Hive on Hue（CDH 5.9.3）的配置設置限制可以使用的容器數量？

這是我們組中的一個普遍問題，我們的Hive查詢經常會擴展，以佔用我們CDH羣集上大多數可用的YARN執行程序和內存。雖然底層問題出在我們表格的分區數量和連接的複雜性上，但我們不能自由地重建這些表格。我們可以通過配置spark.dynamicAllocation.maxExecutors和spark.executor.memory來控制Spark中的資源消耗。我們可以在Hue上使用類似的東西，這樣H

1熱度

2回答

AWS EMR Presto使用AWS膠水找不到正確的Hive模式

所以我遇到了能夠通過AWS EMR執行Presto查詢的問題。我已經啓動了運行配置單元/ presto並使用AWS Glue作爲Metastore的EMR。當我進入主節點並運行配置單元的SSH時，我可以運行「show schemas;」它向我展示了我們在AWS Glue上的3個不同的數據庫。如果我再進入普雷斯托CLI及運行「上蜂巢節目模式」我只看到兩個「默認」和「INFORMATION_SC

-1熱度

1回答

使用SparkSQL查詢Hive/HBase表的Java/Scala代碼示例？

我能夠使用shell命令在hive和hbase表上使用SparkSQL查詢。現在我正在尋找用於hive和hbase直接表的java/scala代碼。任何人都在爲此工作，請與我分享代碼示例。我在谷歌嘗試，但它不適合我。我更新我的代碼和輸出的問題如下，代碼： object HbaseScalaSample { def main(args: Array[String]) { val c

0熱度

1回答

變量替換配置單元查詢中的列名

我有一個任務，在這裏我需要比較一個數據幀的2列並獲取差異。數據框中有200多列，我必須編寫100多個查詢來檢查列中的值。例如：DF1 https://i.stack.imgur.com/Aj1ca.png 我需要所有的值，其中X1 = X2和列對具有不同的值。簡單訂條款─ select A1,A2 from DF1 where X1=X2 and A1!=A2 select B1,B2 fr

1熱度

2回答

在特定列上選擇不同的列，但在配置單元中也選擇其他列

我在具有大約80列的配置單中的表中有多個列。我需要在某些列上應用distinct子句，並從其他列中獲取第一個值。下面是我想要實現的內容。 select distinct(col1,col2,col3),col5,col6,col7 from abc where col1 = 'something'; 上面提到的所有列都是文本列。所以我不能應用分組和聚合函數。

-1熱度

1回答

Spark配置單元格的目的是什麼？

我知道這個問題早在幾年前就已經提出過了，但我仍然想知道使用SparkSQL/HiveContext的真正目的。 Spark方法給出了一種更通用的分佈式內置MapReduce方式。我讀了很多文章，聲稱MR方式已經死了，Spark是最好的（我知道我可以通過Spark實現MR方法）。當建議使用HiveContext查詢數據時，我有點困惑。事實上，從SparkSQL/HiveContext運行查詢並