2016-11-10 68 views
2

對不起,我是Apache Nifi的新成員。所以我做了一個關於從Hive中提取數據並將其存儲在SQL中的數據流。我的數據流沒有錯誤,唯一的問題是,它重複提取數據。將數據從Hive提取到SQL Server,無需使用Apache Nif的重複項

我的數據流是由以下部分組成:

  1. SelectHiveQL
  2. SplitAvro
  3. ConvertAvroToJson
  4. ConvertJsonTOSQL
  5. PutSQL

例如我在蜂巢中的表只有20行,但當我運行數據流並檢查我的MS SQL表中。它節省了5000行。 SelectHiveQL重複提取數據。

我需要做什麼,它只會拉動20行或者我的蜂巢表中的確切行數?

謝謝

回答

3

SelectHiveQL(如許多NiFi處理器)上運行用戶指定的時間表。要使處理器只運行一次,可以將運行計劃設置爲30秒,然後啓動並立即停止處理器。處理器將被觸發一次,並且停止處理器不會中斷當前的執行,只會導致它不再被調度。

另一種方式可能是運行時間表設定爲非常大,使得它將只執行一次,每次一些很長的時間間隔(天,年等)

+0

太感謝你了!先生。 – Eiger

相關問題