avro

    0熱度

    1回答

    我必須讀取在HDFS中的avro文件中序列化的Avro記錄。爲此,我使用AvroKeyInputFormat,因此我的映射器能夠將讀取的記錄作爲關鍵字使用。 我的問題是,我如何控制分割大小?使用文本輸入格式,它包括以字節爲單位定義大小。在這裏,我需要定義每個分組將包含多少條記錄。 我想管理我的輸入目錄中的每個文件就像一個大文件。我有沒有使用CombineFileInputFormat?是否有可能與

    1熱度

    1回答

    我很想知道在Avro中編碼一種非常特定類型的數據的最佳做法:UUID。

    1熱度

    2回答

    我想知道使用Avro模式來驗證應用程序中附帶的JSON的可行性。在this post中,Doug Cutting建議使用avro-tools jar附帶的jsontofrag工具。他的例子是JSON「文件」,這只是一些微不足道的一個: echo 2 | java -jar avro-tools.jar jsontofrag '"int"' - | java -jar avro-tools.jar

    2熱度

    1回答

    我有一個複雜的Avro記錄(嵌套記錄,聯合類型),我在HBase中存儲爲一個值。 Schema schema = new Schema.Parser().parse(schema_file); DatumReader<GenericRecord> datumReader = new SpecificDatumReader<GenericRecord>(schema); DataFileRead

    0熱度

    1回答

    我在Mac OSX上工作。我遇到以下異常,試圖運行在hadoop集羣上使用Avro文件的hadoop作業。我使用的Java 1.6和我使用的Snappy版本是1.0.4.1這不是最後一個,但我不能改變它,因爲其他部分可能發生的其他問題。 堆棧跟蹤如下: java.lang.reflect.InvocationTargetException at sun.reflect.NativeMet

    2熱度

    2回答

    我正在用一個由字符串和映射組成的簡單記錄測試Avro for java。這裏是我的架構: { "type":"record", "name":"TableRecord", "fields":[ {"name":"ActionCode","type":"string"}, { "name":"Fields", "type":{

    2熱度

    1回答

    我試圖定義一個不太平凡的Avro架構,但成功率很低;當它不會拋出模式語法錯誤時,它不會產生我試圖在模式中定義的所有類型。 是否有avsc定義的可能內容的完整規範?我一直在根據Doc規範瞭解的內容進行猜測,但顯然這還不夠。 最佳, 愛德華多

    1熱度

    1回答

    是否有可能在Avro中創建類型別名/同義詞(或近似相同)? 我想舉例如「長」是一個時間以來的時代,而不必依賴於隱含的上下文。 在Haskell而言,這將是這樣的: type EpochTime = Double 在斯卡拉方面相似: type Coordinates = Tuple2[Float, Float] 是否有Avro公司這樣做的類似的方式,否則我將不得不重視一些附加元數據? Thi

    2熱度

    1回答

    我有一個使用AvroKeyOutput作爲輸出格式的Reducer。默認情況下,MapReduce會將所有密鑰寫入單個輸出文件。我想爲每個鍵值寫入一個單獨的輸出文件。 Avro提供了AvroMultipleOutputs方法,但示例很苗條。 Apache AvroMultipleOutputs提供的一個演示瞭如何在定義作業時預先配置各種輸出。這些例子表明: 伯: AvroMultipleOutpu

    4熱度

    1回答

    我已經定義了一個記錄組成的Avro公司架構包含兩個(或多個)不同的記錄,如工會: { "type":"record", "name":"MyCompositeRecord", "fields": [ {"name":"SomeCommonData","type":"string"}, {"name":"MoreCommonData","t