hive

    0熱度

    1回答

    我有大約10行 empno,ename,dept,sal,deptno 現在我想導致從每個部門誰是最大SAL的ename一個EMP表。 EX: 12,ravi,manager,20000,10 43,hari,engineer,10000,20 32,sam,clerk,5000,30

    1熱度

    2回答

    我有一個包含10個奇數列的表,其中之一是「狀態」。 我想取其中狀態並不拒絕所有的行,所以我寫了下面的查詢上蜂巢: select * from table1 where status <> 'Rejected' 但是蜂房沒有返回我行,其中的狀態爲空。我改變了查詢 select * from table1 where status <> 'Rejected' or status is Null

    1熱度

    3回答

    我有一個名爲geo_data_display的字段,其中包含國家,地區和dma。這3個值包含在第一個「=」和第一個「&」之間的字符,第二個「=」和第二個「&」之間的區域和第三個「=」和第三個「=」之間的DMA之間的國家, &「。這是一個可重新生成的表格。國家總是字符,但地區和DMA可以是數字或字符和DMA不存在所有國家。 幾個樣本值是: country=us®ion=tx&dma=625&d

    1熱度

    3回答

    空數據我想了解 我使用下表 ╔════╦══════════════╦══════════╗ ║ id ║ name ║ salary ║ ╠════╬══════════════╬══════════╣ ║ 1 ║ cde ║ 5636 ║ ║ 2 ║ asd ║ 148 ║ ║ 3 ║ pwe ║ null ║ ║ 4 ║ lmn ║ 959 ║ ╚═══

    1熱度

    2回答

    這是我們組中的一個普遍問題,我們的Hive查詢經常會擴展,以佔用我們CDH羣集上大多數可用的YARN執行程序和內存。雖然底層問題出在我們表格的分區數量和連接的複雜性上,但我們不能自由地重建這些表格。我們可以通過配置spark.dynamicAllocation.maxExecutors和spark.executor.memory來控制Spark中的資源消耗。我們可以在Hue上使用類似的東西,這樣H

    1熱度

    2回答

    所以我遇到了能夠通過AWS EMR執行Presto查詢的問題。 我已經啓動了運行配置單元/ presto並使用AWS Glue作爲Metastore的EMR。 當我進入主節點並運行配置單元的SSH時,我可以運行「show schemas;」它向我展示了我們在AWS Glue上的3個不同的數據庫。 如果我再進入普雷斯托CLI及運行「上蜂巢節目模式」我只看到兩個「默認」和「INFORMATION_SC

    -1熱度

    1回答

    我能夠使用shell命令在hive和hbase表上使用SparkSQL查詢。現在我正在尋找用於hive和hbase直接表的java/scala代碼。任何人都在爲此工作,請與我分享代碼示例。我在谷歌嘗試,但它不適合我。 我更新我的代碼和輸出的問題如下, 代碼: object HbaseScalaSample { def main(args: Array[String]) { val c

    0熱度

    1回答

    我有一個任務,在這裏我需要比較一個數據幀的2列並獲取差異。數據框中有200多列,我必須編寫100多個查詢來檢查列中的值。 例如:DF1 https://i.stack.imgur.com/Aj1ca.png 我需要所有的值,其中X1 = X2和列對具有不同的值。 簡單訂條款─ select A1,A2 from DF1 where X1=X2 and A1!=A2 select B1,B2 fr

    1熱度

    2回答

    我在具有大約80列的配置單中的表中有多個列。我需要在某些列上應用distinct子句,並從其他列中獲取第一個值。下面是我想要實現的內容。 select distinct(col1,col2,col3),col5,col6,col7 from abc where col1 = 'something'; 上面提到的所有列都是文本列。所以我不能應用分組和聚合函數。

    -1熱度

    1回答

    我知道這個問題早在幾年前就已經提出過了,但我仍然想知道使用SparkSQL/HiveContext的真正目的。 Spark方法給出了一種更通用的分佈式內置MapReduce方式。 我讀了很多文章,聲稱MR方式已經死了,Spark是最好的(我知道我可以通過Spark實現MR方法)。 當建議使用HiveContext查詢數據時,我有點困惑。 事實上,從SparkSQL/HiveContext運行查詢並