hive

    0熱度

    1回答

    你能有人幫我解決了GC開銷錯誤。 背景: 這是通過從HCATALOGUE 4個蜂巢表加載數據豬腳本。配置單元表按順序文件並按日期分區。加載數據大小約爲。 24TB。 這個腳本已經爲16TB運行成功。 問題:在嘗試讀取從蜂巢數據 作業將失敗。應用程序ID未提交用於此映射reduce,並且即使在提交應用程序ID之前也會發生故障。所以,在YARN找不到日誌。 我嘗試將yarn.app.mapreduce

    0熱度

    1回答

    我使用hivexml serde解析嵌套的xml文件,但它在我們從配置元表中選擇數據時返回null。 示例xml文件是xml data。 查詢我爲解析xml而創建的。 CREATE EXTERNAL TABLE IF NOT EXISTS abc (mail string, Type string, Id bigint, Date string, LId bigint, value string)

    1熱度

    1回答

    我有這個蜂巢MERGE語句運行: MERGE INTO destination dst USING ( SELECT -- DISTINCT fields company , contact_id as id , ct.cid as cid -- other fields , email , timestamp_

    1熱度

    1回答

    當我有一個在整個select語句中重複多次的複雜子查詢時,在Hive中構建/寫入查詢的最佳方式是什麼? 我最初爲每次運行前刷新的子查詢創建了一個臨時表。然後,我開始使用CTE作爲原始查詢的一部分(丟棄臨時表)以提高可讀性並注意到性能下降。這讓我很好奇哪些實現方法在需要重新使用子查詢時的性能方面是最好的。 我正在使用的數據包含超過1000萬條記錄。以下是我使用CTE編寫的查詢的一個示例。 with

    0熱度

    2回答

    我創建與IP地址列的列數據表, create table test (id int,name string,ip_adress string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ ; ,所以我會用什麼樣的數據類型來定義ip_adress列? 我試過字符串,二進制&數組數據類型,沒有任何工作。

    1熱度

    2回答

    我創建了3節點Hadoop羣集,其中包含1個namenode和2個datanode。 我可以從Hive shell執行讀取/寫入查詢,但不是直線。 我發現了很多與此問題相關的建議和解答。 在每個建議中都提到要爲每個表提供userX的許可。 但我不知道如何爲匿名用戶一勞永逸地設置權限。 爲什麼我在從直線或Java程序訪問數據時獲取用戶匿名? 我能夠從兩個beeline shell中讀取數據並使用Ja

    1熱度

    1回答

    我想檢查一個字符串是否有效的日期格式'YYYYMMDD'。 我正在使用以下技術。但是對於無效的日期字符串,我得到有效的日期結果。 我在做什麼錯?所有的 SELECT'20019999',CASE WHEN unix_timestamp('20019999','YYYYMMDD') > 0 THEN 'Good'ELSE 'Bad'END;

    0熱度

    1回答

    我有一個簡單的代碼的Hadoop /蜂巢表定義爲 CREATE TABLE mike timeOne TIMESTAMP, timeTwo TIMESTAMP, name STRING 然後一個MyBatis的映射文件在這裏插入一條記錄,看起來像這樣 <insert id="insertMikeFormDataForHadoop" parameterType="hashmap">

    0熱度

    1回答

    我通過使用bash腳本將csvs移動到HDFS並在其上構建外部Hive表來自動執行數據管道。目前,這隻適用於在.hql文件中預定義表格的格式。但我希望能夠從CSV中讀取標題並將它們作爲參數發送給Hive。所以,我目前通過的文件做一個循環中: # bash hive -S -hiveconf VAR1=$target_db -hiveconf VAR2=$filename -hiveconf VA

    -2熱度

    1回答

    在每個插入查詢中,使用Hdfs文件系統中的000000_0_copy *創建一個文件。 這是hive和Hdfs的默認行爲嗎? 如果是的話,是否有壓實的概念然後comapaction如何工作?