0
我有大量的時間序列數據,它是以S3中存儲的.rrd(循環數據庫)格式存儲的。我打算使用apache spark來對此進行分析以獲得不同的性能矩陣。庫使用spark處理.rrd(循環數據)
目前我正在從s3下載.rrd文件並使用rrd4j庫處理它。我打算處理更長的時間,比如一年或更長時間。它涉及處理數十萬個.rrd文件。我想要spark節點直接從s3獲取文件並運行分析。 我該如何使用rrd4j來讀取.rrd文件?有沒有任何圖書館可以幫助我做到這一點? 在處理這類數據時有沒有對spark的支持?
您是否考慮將其流入Spark? – eliasah
它不是一個實時數據,它的歷史數據,在這種情況下流如何幫助我? –