我在哪裏可以找到Pentaho Kettle建築?我正在尋找一個簡短的wiki,設計文檔,博客文章,以便對事物的工作方式給出一個很好的概述。這個問題並不是針對具體的「如何」入門指南,而是對技術和體系結構的好看法。Pentaho Kettle的建築在哪裏?
我有具體問題是:
- 怎樣的步驟之間的數據流?這似乎是一切都在記憶中 - 我是對的嗎?
- 以上關於不同轉換的真實情況也是如此嗎?
- 如何執行收集步驟?
- 使用它的任何具體的性能指導?
- ftp任務是否可靠和高效?
- 任何其他「該做什麼和不該做什麼」?
我在哪裏可以找到Pentaho Kettle建築?我正在尋找一個簡短的wiki,設計文檔,博客文章,以便對事物的工作方式給出一個很好的概述。這個問題並不是針對具體的「如何」入門指南,而是對技術和體系結構的好看法。Pentaho Kettle的建築在哪裏?
我有具體問題是:
參見this PDF。
- 數據如何在步驟之間流動?這似乎一切都在 記憶 - 我是對的嗎?
數據流是基於行的。對於轉換,每一步都會生成一個「元組」或一個包含字段的行。每個字段都是一對數據和一個元數據。每一步都有輸入和輸出。步驟從輸入中獲取行,修改行並將行發送到輸出。對於大多數情況下,所有的信息都在內存中。但。步驟以流方式讀取數據(如jdbc或其他) - 通常在內存中只存儲流中數據的一部分。
- 以上關於不同轉換的真實情況也是如此嗎?
有一個'工作'的概念和'轉型'的概念。以上所有內容大部分都是真實的轉換。大多數情況下 - 意味着轉換可能包含非常不同的步驟,其中一些步驟(如收集步驟)可以嘗試從流中收集所有數據。工作 - 是一種執行一些不遵循「流式」概念的行爲的方式 - 例如成功發送電子郵件,從網絡加載一些文件,逐個執行不同的轉換。
- 收集步驟是如何實施的?
它只取決於特定的步驟。通常如上所述 - 收集步驟可能會嘗試收集來自流的所有數據 - 因此 - 可能是OutOfMemory異常的原因。如果數據太大 - 考慮用不同的方法處理數據(例如使用不收集所有數據的步驟)來替換「收集」步驟。
- 使用它的任何具體性能指導原則?
很多。取決於步驟轉換是否包含使用的數據源。我會試着說出確切的情況,而不是一般的指導方針。
- ftp任務是否可靠和高效?
至於我記得FTP由EdtFTP實施的支持,並有可能會出現一些問題,與步驟一樣 - 某些參數不保存,或HTTP-FTP代理不工作或其他。我想說釜一般是可靠和perfomant - 但對於一些不常用的情況 - 它可能不是這樣。
- 其他任何「該做什麼和該做什麼」?
我會說Do - 是在開始深入使用之前瞭解一個工具。正如在本次討論中提到的 - 有關Kettle/Pentaho數據集成的一些文獻,您可以嘗試在特定網站上進行搜索。
Pentaho數據集成/水壺的優點之一是相對較大的社區,您可以要求具體方面。