2015-09-24 25 views
0

我有大量的時間序列數據,它是以S3中存儲的.rrd(循環數據庫)格式存儲的。我打算使用apache spark來對此進行分析以獲得不同的性能矩陣。庫使用spark處理.rrd(循環數據)

目前我正在從s3下載.rrd文件並使用rrd4j庫處理它。我打算處理更長的時間,比如一年或更長時間。它涉及處理數十萬個.rrd文件。我想要spark節點直接從s3獲取文件並運行分析。 我該如何使用rrd4j來讀取.rrd文件?有沒有任何圖書館可以幫助我做到這一點? 在處理這類數據時有沒有對spark的支持?

+0

您是否考慮將其流入Spark? – eliasah

+0

它不是一個實時數據,它的歷史數據,在這種情況下流如何幫助我? –

回答

1

火花部分相當容易,可以使用wholeTextFilesbinaryFilessparkContext(請參閱docs)。根據文檔,rrd4j通常需要構建rrd的路徑,但是使用RrdByteArrayBackend,您可以將數據加載到那裏 - 但這可能會造成問題,因爲大部分API都受到保護。你必須找出一種方法將Array[Byte]加載到rrd4j中。