2016-08-02 53 views
-1

這是我的第一個問題,如果你們可以幫我解決問題,我將非常感激。Hive表和Netezza表之間的匹配記錄

我跑了一個sqoop導入從Netezza轉移到Hive表。現在我必須將Netezza表中的記錄與Hive表進行匹配,以檢查所有記錄是否已成功導入配置單元。我需要確保一張表的每條記錄與另一張表的匹配,並找出不匹配的記錄(如果有的話)。我的項目負責人建議我使用腳本過濾不匹配的記錄並插入新表格。 (通過唯一鍵加入兩個表,並使用'where'來過濾不匹配的記錄)。問題是我是Hadoop的新手,不知道如何去做。

有人可以幫忙嗎?

回答

0

第一個最重要的是你可以運行一個SELECT查詢來計算導入的Hive表格上recs的數量。

select count(*) from hive_table; 

如果計數不Netezza公司表和蜂巢表之間的匹配,那麼您需要首先檢查該Sqoop導入過程中生成的日誌。這會讓你瞭解recs沒有加載的原因。

+0

我已經運行了選擇計數(*)和記錄數匹配。有什麼方法可以從配置單元訪問Netezza表嗎? – Shaunte

+0

不,我不這麼認爲。表格/數據必須在HDFS上供Hive訪問以進行任何計算。 – JPWorks