庫使用spark處理.rrd（循環數據）

我有大量的時間序列數據，它是以S3中存儲的.rrd（循環數據庫）格式存儲的。我打算使用apache spark來對此進行分析以獲得不同的性能矩陣。庫使用spark處理.rrd（循環數據）

目前我正在從s3下載.rrd文件並使用rrd4j庫處理它。我打算處理更長的時間，比如一年或更長時間。它涉及處理數十萬個.rrd文件。我想要spark節點直接從s3獲取文件並運行分析。我該如何使用rrd4j來讀取.rrd文件？有沒有任何圖書館可以幫助我做到這一點？在處理這類數據時有沒有對spark的支持？

來源

2015-09-24 Prasanna Ab

您是否考慮將其流入Spark？ – eliasah

它不是一個實時數據，它的歷史數據，在這種情況下流如何幫助我？ –

火花部分相當容易，可以使用wholeTextFiles或binaryFilessparkContext（請參閱docs）。根據文檔，rrd4j通常需要構建rrd的路徑，但是使用RrdByteArrayBackend，您可以將數據加載到那裏 - 但這可能會造成問題，因爲大部分API都受到保護。你必須找出一種方法將Array[Byte]加載到rrd4j中。

來源

2015-09-25 08:20:27 Reactormonk

庫使用spark處理.rrd（循環數據）

回答

相關問題