2017-08-29 146 views
0

Consumer-transformationProducer-transformation阿帕奇卡夫卡消費者花費很長時間

目的: 轉移表(120個表)從Oracle數據庫Vertica的數據庫。

目前的做法: 使用Pentaho的工具來提取從Oracle數據庫數據,並存儲爲文件並重新加載它們到Vertica的數據庫。

問題: 整個過程運行很長時間。 將其存儲爲文件佔用更多空間並降低性能。

新方法: 使用Kafka作爲消息系統及其在pentaho中的插件。

問題面臨: 消費者插件花費的時間量龐大用於消耗消息並裝載到Vertica的表(採取加載消息到生產者6倍的時間)。 1架Avro格式 2. 200列

樣品2萬條記錄,我們想聽聽建議,以改善這個性能或暗示任何其他方式來滿足使用卡夫卡的目標。

+0

你在使用Pentaho 7嗎? – AlainD

+0

是的,我正在使用pentaho 7.1 – Anjana

回答

0

This document建議使用Vertica Bulk Loader步驟,直接在Oracle Table input之後。

+0

我需要添加少量列,並在加載到Vertica之前對我的源數據進行一些更改,以便在輸入表格後立即添加Vertica Bulk Loader步驟。 – Anjana

+0

但是,在我所有的更改和列的添加之後嘗試了Vertica Bulk Loader,但性能仍然幾乎相同。詳情請參閱屏幕截圖 – Anjana