2009-11-27 57 views
5

我正在尋找ETL工具,並在谷歌上發現了很多關於Pentaho Kettle的信息。Pentaho ETL和數據分析器是不錯的選擇嗎?

我還需要一個數據分析器才能在星型模式上運行,以便業務用戶可以玩耍並生成任何類型的報告或矩陣。 PentaHo分析儀再次看起來不錯。

應用程序的其他部分將用java開發,應用程序應該是數據庫不可知的。

是Pentaho足夠好還是有其他工具我應該檢查。

回答

0

我以前用過Talend,取得了一些成功。您可以通過在圖形設計器中將操作鏈接在一起來創建翻譯。肯定有一些跆拳道,很難處理多線記錄,但它運作良好,否則。

Talend還生成Java,您可以遠程訪問ETL過程。該工具也是免費的,儘管它們提供企業培訓和支持。

3

Pentaho似乎相當穩固,提供了整套BI工具,並據報道在整合方面有了改進的整合。但是......有可能是那些想要走他們商業智能解決方案的開源路線的公司最有可能最終使用開源數據庫技術......並且在感覺「數據庫不可知」可能很容易成爲雙刃劍。例如,您可以在Microsoft的Analysis Services中開發一個多維數據集,以便知道您的多維數據集向數據庫發送的MDX/XMLA將始終處於內聯狀態,對於令人討厭的意外事件幾乎沒有任何影響。

將它與Pentaho堆棧進行比較,該堆棧通常會結束與Postgresql或Mysql的交互。我無法證明Postgresql在OLAP領域中的表現如何,但我從經驗中知道,Mysql - 對於它所有的無疑的優勢 - 與通常在OLAP解決方案中出現的SQL類型有關的「問題」 (如果不使用GROUP BYCOUNT DISTINCT,你無法在立方體中找到很遠的位置)。因此,您節省許可證費用的一部分幾乎肯定會用於解決由於Pentaho並不總是知道它正在與哪個數據庫交談的事實 - 搶奪彼得(至少部分)支付保羅費用,可以這麼說。

+0

實際上似乎有越來越多的Pentaho用戶開始使用各種開源的列數據庫(例如Lucid)而不是mysql,然後你可以從olap類型的查詢中獲得致盲性能。另外,分析功能在緩存方面也做得很好 - 即使查詢在底層數據庫中速度很慢,也只是一次性搜索而已。 最後;它支持聚集表 - 避免這些緩慢查詢的另一種方式 - 聚合設計師爲你排序 - 這是一個非常方便的工具。 – Codek 2010-02-17 12:39:20

1

不幸的是,需要更多信息。例如:

  • 您需要與衆所周知的應用程序(Oracle Financials,Remedy等)交換數據嗎?如果是這樣,您可以使用支持已經內置該接口的ETL解決方案節省大量時間。
  • 需要與哪些數據庫產品(和版本)和文件類型進行交談?
  • 你需要支持查詢網絡服務嗎?
  • 你需要接近實時的數據滴定嗎?
  • 是否需要規則級審計&計數用於每一行的計算
  • 您是否需要增量處理?
  • 你需要什麼樣的機器來運行? Linux呢?視窗?主機?
  • 這個工具必須遵守什麼樣的版本控制,測試和構建過程?
  • 什麼樣的性能&需要擴展性嗎?
  • 你介意數據庫是否最終導致了轉換?
  • 你需要在用戶空間運行嗎?
  • 您是否需要在與其他網絡斷開連接的各種網絡上運行它的一部分? (對於提取過程並不罕見)
  • 需要支持多少接口和多少複雜性?

您可以花費大量的時間來部署和學習ETL工具 - 只是發現它確實無法很好地滿足您的需求。你最好先花幾個小時來弄清楚。

+0

感謝您的參數選擇工具......我一定會驗證Pentaho。如果考慮所有問題的答案是否屬實,你Pentaho會不會很好? – flair 2009-12-02 15:08:26

+0

嗯,這是一個快速的高級列表。我還會考慮授權 - 因爲免費版本中缺少重要功能(如遠程管理和警報)。 而且我還會考慮你想要一個模型驅動的方法。就我個人而言,我發現模型驅動的ETL對於20%左右的工作來說是一個PITA。我最喜歡的是用於python/ruby​​/java/perl然後與之交互的庫和工具的工具箱。對於許多小型項目,建立自己的圖書館是學習大型產品和處理其他供應商的最佳解決方案。 – KenFar 2009-12-02 18:58:00

+0

好奇;付費版本以何種方式提醒? – Codek 2011-03-24 14:23:05

0

有很多選擇。看看BIRT,Talend和Pentaho,如果你想要免費工具。如果您想要更健壯,請查看Tableau和BIRT Analytics。