正在關注1和2: 不同類型的文件會隨時進入我的NFS目錄。我想使用OOZIE或任何其他HDFS解決方案來觸發文件到達事件,並根據文件的類型將文件複製到HDFS中的特定位置。什麼是最好的方式來做到這一點?使用OOZIE在文件到達NFS時觸發執行的最佳方式
回答
最好的方法是非常主觀的術語。它很大程度上取決於數據到達特定位置後應該發生什麼類型的數據,頻率和發生什麼樣的事情。
Apache水槽可以監視特定文件夾的數據可用性,並將其壓入像HDFS 這樣的水槽,原樣爲。 Flume適合流式傳輸數據,但它只做一項特定工作 - 只是將數據從一個地方移動到另一個地方。
但另一方面,請查找Oozie協調員。協調員具有數據可用性觸發器,使用oozie可以在數據到達後使用spark,hive,pig等工具執行各種ETL操作,並使用shell操作將其推送到hdfs。你可以安排工作在特定的時間運行,頻率或工作給你發送電子郵件,如果出現問題...
非常感謝@Pushkr!你能指導我在哪裏可以找到Oozie協調員代碼的源代碼來觸發文件到達並將文件複製到HDFS的特定位置? – Avi
谷歌是你的朋友伴侶。但這裏有一些樣本 - https://github.com/yahoo/oozie/wiki/Oozie-Coord-Use-Cases – Pushkr
親愛的@Pushkr,Oozie協調員支持是否也支持NFS到達文件,而不僅僅是HDFS?請參考:https://community.cloudera.com/t5/Batch-Processing-and-Workflow/Getting-Oozie-Coordinator-datasets-working-with-S3-after-a-lost/td-p/27233 – Avi
- 1. 使用觸發器有條件地插入的最佳方式
- 2. 最佳方式暫時直到文件
- 3. 觸發適時事件的最佳方式
- 4. 執行此操作的最佳方式
- 5. 執行搜索的最佳方式
- 6. 執行數學表達式的最佳方法是什麼?
- 7. 處理線程最大執行時間的最佳方式(Java)
- 8. Cocoa觸摸切換視圖時觸發方法的最佳方式
- 9. 綁定/觸發事件的最佳方式
- 10. 使用Intel SSE執行分支的最佳方式是什麼?
- 11. 跟蹤文本文件中最後一行的最佳方式
- 12. 在創建時將JSON發送到頁面的最佳方式
- 13. 在backbonejs中觸發路由的最佳方式是什麼?
- 14. 別名表達式的最佳方式
- 15. 在GridView行上執行操作的最佳方式
- 16. 在Rails 3.x中執行ajax文件上傳的最佳方式是什麼
- 17. 當文件到達時SSIS包執行
- 18. 使用vim進行Cocoa開發的最佳方式是什麼?
- 19. 在zip文件上分發大量數據的最佳方式
- 20. 自動執行郵件進程的最佳方式
- 21. 執行軟件測試的最佳方式
- 22. 什麼是登錄oozie的最佳方式
- 23. 將文件上傳到S3並觸發lambda的最佳做法
- 24. 最佳方式使用歡迎文件在Web應用程序
- 25. 使用PHP發佈到Web API的最佳方式是什麼?
- 26. 正則表達式在Oozie的DistCp使用行動
- 27. 最好的方式執行內部文件到Java項目
- 28. 使用SmtpClient發送郵件的最佳方式?
- 29. 在運行時替換控件的最佳方式是什麼?
- 30. 從觸發器執行MS SQL Server 2000 DTS包的最佳方法是什麼?
Apache Flume ... ........ ?? ?? – franklinsijo