2016-10-11 48 views
1

我收集了JSON文檔的語料庫,我想用Parquet格式轉換/存儲它們,以便使用C++進行高效處理。 我有2個有關流程的問題:將JSON文檔轉換爲實木複合地板

Q1-在所有類似的例子和試驗的情況下,我已經在網上找到將數據轉換成平面格式(如this),似乎架構應當提前確定時間。但是,我的JSON文檔不符合單個/固定模式。我只是想知道模式定義是否確實是一個需求(因爲我猜Parquet的設計是爲了有效地支持嵌套和可選值的非結構化數據)。

Q2-幾乎所有可用的示例都使用Java庫。但是,我正在尋找一種有效的方式來在C++中進行這種轉換。對此有何暗示/建議? (我已經開始尋找Parquet-cpp repo及其測試用例,但我想知道是否有一個更簡潔的例子,並提供最少的依賴關係)。

回答

2

A1:Parquet支持嵌套和可選值,但您需要預先提供一個模式定義,以指定這些嵌套/可選數據元素。 A2:parquet-cpp是我所知道的唯一一個C++庫,用於實木複合地板。當然,編寫Parquet - Impala並不是唯一的方式,例如,實現自己的Parquet堆棧,但您可能不希望這樣做。

相關問題