2017-04-12 55 views
0

我的上下文是;Hadoop攝入自動化技術

10個csv文件在夜間上傳到我的服務器。

我的過程是:

  • 食入:

    • 放在HDFS
    • 文件
    • 創建ORC蜂巢表,並把他們的數據。
  • 處理:

    • 星火處理:改造,清洗,加入....
    • 很多鏈接步驟(火花作業)

我搜索最佳實踐來自動化第一部分並觸發第二部分。

  • Cron,sh,dfs put。
  • Oozie?
  • Apache Nifi?
  • Flume?
  • Telend :(

我也看https://kylo.io/,這是完美的,但我覺得還是年輕了,把它投入生產。提前

感謝。

+0

此解答是否有用?你有跟進問題嗎? – alpeshpandya

+0

有用,謝謝你的回覆。 – Nabil

回答

1

了Oozie和Nifi都將結合工作與

水槽,蜂巢和火花的行動。所以你(Oozie的或Nifi)工作流應該像這樣工作

  1. cron作業(或時間表)啓動工作流程。

  2. 工作流程的第一步是Flume進程,以便將數據加載到所需的HDFS目錄中。您可以在不使用Flume的情況下使用HDFS命令執行此操作,但這有助於您的解決方案在未來可擴展。

  3. 蜂房行動,創建/更新表

  4. 星火行動,以執行自定義的火花程序

確保你把錯誤的工作流程處理與適當的記錄和通知,以便照顧您可以對生產中的工作流程進行操作。