2009-10-15 89 views
4

我在哪裏可以找到Pentaho Kettle建築?我正在尋找一個簡短的wiki,設計文檔,博客文章,以便對事物的工作方式給出一個很好的概述。這個問題並不是針對具體的「如何」入門指南,而是對技術和體系結構的好看法。Pentaho Kettle的建築在哪裏?

我有具體問題是:

  1. 怎樣的步驟之間的數據流?這似乎是一切都在記憶中 - 我是對的嗎?
  2. 以上關於不同轉換的真實情況也是如此嗎?
  3. 如何執行收集步驟?
  4. 使用它的任何具體的性能指導?
  5. ftp任務是否可靠和高效?
  6. 任何其他「該做什麼和不該做什麼」?

回答

0
  1. 數據如何在步驟之間流動?這似乎一切都在 記憶 - 我是對的嗎?

數據流是基於行的。對於轉換,每一步都會生成一個「元組」或一個包含字段的行。每個字段都是一對數據和一個元數據。每一步都有輸入和輸出。步驟從輸入中獲取行,修改行並將行發送到輸出。對於大多數情況下,所有的信息都在內存中。但。步驟以流方式讀取數據(如jdbc或其他) - 通常在內存中只存儲流中數據的一部分。

  1. 以上關於不同轉換的真實情況也是如此嗎?

有一個'工作'的概念和'轉型'的概念。以上所有內容大部分都是真實的轉換。大多數情況下 - 意味着轉換可能包含非常不同的步驟,其中一些步驟(如收集步驟)可以嘗試從流中收集所有數據。工作 - 是一種執行一些不遵循「流式」概念的行爲的方式 - 例如成功發送電子郵件,從網絡加載一些文件,逐個執行不同的轉換。

  1. 收集步驟是如何實施的?

它只取決於特定的步驟。通常如上所述 - 收集步驟可能會嘗試收集來自流的所有數據 - 因此 - 可能是OutOfMemory異常的原因。如果數據太大 - 考慮用不同的方法處理數據(例如使用不收集所有數據的步驟)來替換「收集」步驟。

  1. 使用它的任何具體性能指導原則?

很多。取決於步驟轉換是否包含使用的數據源。我會試着說出確切的情況,而不是一般的指導方針。

  1. ftp任務是否可靠和高效?

至於我記得FTP由EdtFTP實施的支持,並有可能會出現一些問題,與步驟一樣 - 某些參數不保存,或HTTP-FTP代理不工作或其他。我想說釜一般是可靠和perfomant - 但對於一些不常用的情況 - 它可能不是這樣。

  1. 其他任何「該做什麼和該做什麼」?

我會說Do - 是在開始深入使用之前瞭解一個工具。正如在本次討論中提到的 - 有關Kettle/Pentaho數據集成的一些文獻,您可以嘗試在特定網站上進行搜索。

Pentaho數據集成/水壺的優點之一是相對較大的社區,您可以要求具體方面。

http://forums.pentaho.com/

https://help.pentaho.com/Documentation

相關問題