2017-10-16 52 views
0

我是Spark的新手。 在我們的項目中,需要解決方案來安排Spark作業

  1. 我們已經將七個PLSql腳本轉換爲Scala-Spark。
  2. 現有PLSql腳本被安排爲Talend上的作業。每個 腳本都安排在一個單獨的作業上,這七個作業只有在第一個作業成功完成後纔會按順序運行,第二個作業將開始並且一直延續到最後一個作業(第七個作業)。

我的團隊正在探索將Scala-Spark程序安排爲其他方式的工作的可能性。其中一個建議是將在Talend上運行的相同作業轉換成Scala。我不知道這是否可能。 所以,誰能讓我知道是否有可能在Scala上做同樣的事情。

回答

0

您可以使用tSystem或tSSH組件在Talend中提交您的Spark任務。並從提到的組件獲取響應代碼(退出代碼)。如果退出代碼= 0(成功),則可以提交下一個火花作業。我們在我們的項目中也這樣做了。

+0

好的。我現在把它縮小到Talend。另一件事是,現有的Talend作業具有一些中間GP功能,如Timestamp轉換,表列初始化等。將它們轉換爲Spark並在Talend中安排所有這些功能或將這些中間GP功能保留原樣是很好的做法嗎? PLSql腳本的所有元數據也存在於Hive中。所以我需要一些建議。 – Bobby