2017-04-16 86 views
0

我正在使用Apache Spark Streaming使用TCP連接器來接收數據。 我有一個連接到傳感器的python應用程序,並創建一個等待Apache Spark連接的TCP服務器,然後通過這個套接字發送json數據。加入流Apache Spark

我該如何設法加入許多獨立傳感器源,以便將數據發送到Apache Spark上的相同接收器?

+0

請參閱[如何詢問堆棧溢出](https://stackoverflow.com/help/how-to - 問),並參觀 – Prasad

回答

0

看起來好像您需要面向消息的中間件(MOM)或一個kafka集羣來處理實時數據饋送。您的消息製作者可以發送到kafka主題,並且Spark流可以從該kafka主題接收。這樣你可以分離你的製作者和接收者。 Kafka可以線性擴展並使用它與火花流kafka-帶反壓的直接流方法可以爲您提供良好的故障恢復彈性。 如果您選擇另一個MOM,您可以使用基於火花接收器的方法和聯合多個流來擴展它