我是scala/flink/spark的新手,會有幾個問題。 現在scala正在使用flink。我使用正確的框架?
數據流的總體思路是這樣的:
CSV文件 - >弗林克 - > elastic->弗林克(過程數據) - > MongoDB的 - >的Tableau
有其分號日誌文件的數量巨大分隔。 我想將這些文件寫入elasticsearch作爲我的數據庫。 (這已經有效)
現在需要各種分析(f.e.一致性報告/生產率報告)。 對於那些報告,需要不同種類的列。
這個想法是通過flink從elasticsearch中導入基礎數據,編輯數據並將其保存到mongodb中,因此數據可視化可以使用tableau完成。
編輯將包括增加像平日的其他列,並啓動/不同的狀態
// +-------+-----+-----+
// | status|date |time |
// +-------+-----+-----+
// | start | 1.1 |7:00 |
// | run_a | 1.1 |7:20 |
// | run_b | 1.1 |7:50 |
// +-------+-----+-----+
// +-------+-------+-------+----+
// | status|s_time |e_time |day |
// +-------+-------+-------+----|
// | start | 7:00 |7:20 | MON|
// | run_a | 7:20 |7:50 | MON|
// | run_b | 7:50 |nextVal| MON|
// +-------+-------+-------+----+
結束時間了一些研究之後,我發現,弗林克不給使用彈性作爲數據源的可能性。 有一個github項目https://github.com/mnubo/flink-elasticsearch-source-connector,但它已經超過一年沒有更新。這似乎不能正常工作,因爲它讓我少點擊,然後我會用相同的查詢獲取kibana。 有沒有其他的選擇?爲什麼這不是默認支持的?
那些表格轉換可以用flink進行嗎?用flink做它們有意義嗎? (因爲我很難實現它們)
我是否在這個項目中使用了正確的框架?我是否應該改用spark,因爲它提供了更多的功能/社區項目?
星火應該是個不錯的選擇。火星更加穩定和豐富的圖書館感謝flink。 –