0

我正在寫一個卡夫卡生產者
它必須從本地Linux文件夾讀取數據並寫入我的主題
是否可以這樣做?卡夫卡生產者讀取本地Linux文件夾

什麼是我的代碼片段這裏(斯卡拉)

商業案例 -

實時數據將在本地的Linux文件夾中的此CSV文件的形式被寫入 - /數據/ DATA01 /製藥/ 2017/

如何將這些數據移動到我創建的主題?

我的消費者將讀取這些數據,並添加到星火流數據幀進行處理

+0

Spark Streaming可以觀看本地文件目錄。無論你想要做什麼,都可以達到Spark API的極限......所以是的,有一個卡夫卡製片人api –

+0

沒問題。感謝您的評論/回覆。但我的要求是 - 實時處理..所以數據將被寫入本地linux文件夾。所以卡夫卡製片人會讀相同的卡夫卡消費者,(使用spark會處理相同的內容)我不能在製作人中產生火花(我可以);關於如何滿足這個要求的任何建議(或者我錯過了一些非常基本的東西)..我在這裏是新手。 –

+0

星火絕對可以成爲生產者和消費者... –

回答

1

實時數據將在本地Linux文件夾寫入

有很多框架,讓您處理這

那些我所知道的卡夫卡連接

點是,不要重新發明負有寫不必要的風險車輪(也可能是錯誤的)代碼。

0

如果你想讀一個單一的文件,然後

cat ${file} | bin/kafka-console-producer.sh --broker-list localhost:9092 --topic my_topic 

如果文件是動態創建的,那麼你需要監視他們,並餵它kafka-console-producer.sh

Kafka producer to read data files

+0

謝謝先生,這真的有幫助。 –

+0

沒問題,謝謝。 – Kris

+0

多一個幫助先生,現在,我試圖定製生產者使用火花流從卡夫卡主題閱讀。任何想法如何做到這一點。 –