avro

0熱度

1回答

我必須讀取在HDFS中的avro文件中序列化的Avro記錄。爲此，我使用AvroKeyInputFormat，因此我的映射器能夠將讀取的記錄作爲關鍵字使用。我的問題是，我如何控制分割大小？使用文本輸入格式，它包括以字節爲單位定義大小。在這裏，我需要定義每個分組將包含多少條記錄。我想管理我的輸入目錄中的每個文件就像一個大文件。我有沒有使用CombineFileInputFormat？是否有可能與

1熱度

1回答

在Avro中表示UUID的最佳方式是什麼？

我很想知道在Avro中編碼一種非常特定類型的數據的最佳做法：UUID。

1熱度

2回答

如何使用Avro模式來驗證JSON？

我想知道使用Avro模式來驗證應用程序中附帶的JSON的可行性。在this post中，Doug Cutting建議使用avro-tools jar附帶的jsontofrag工具。他的例子是JSON「文件」，這只是一些微不足道的一個： echo 2 | java -jar avro-tools.jar jsontofrag '"int"' - | java -jar avro-tools.jar

2熱度

1回答

從Java的HBase中讀取Avro記錄

我有一個複雜的Avro記錄（嵌套記錄，聯合類型），我在HBase中存儲爲一個值。 Schema schema = new Schema.Parser().parse(schema_file); DatumReader<GenericRecord> datumReader = new SpecificDatumReader<GenericRecord>(schema); DataFileRead

0熱度

1回答

在Mac上做一個Avro工作在Hadoop上的時髦問題

我在Mac OSX上工作。我遇到以下異常，試圖運行在hadoop集羣上使用Avro文件的hadoop作業。我使用的Java 1.6和我使用的Snappy版本是1.0.4.1這不是最後一個，但我不能改變它，因爲其他部分可能發生的其他問題。堆棧跟蹤如下： java.lang.reflect.InvocationTargetException at sun.reflect.NativeMet

2熱度

2回答

Avro和java：反序列化的字符串映射不「等於」原始映射

我正在用一個由字符串和映射組成的簡單記錄測試Avro for java。這裏是我的架構： { "type":"record", "name":"TableRecord", "fields":[ {"name":"ActionCode","type":"string"}, { "name":"Fields", "type":{

2熱度

1回答

Apache Avro架構示例和文檔

我試圖定義一個不太平凡的Avro架構，但成功率很低;當它不會拋出模式語法錯誤時，它不會產生我試圖在模式中定義的所有類型。是否有avsc定義的可能內容的完整規範？我一直在根據Doc規範瞭解的內容進行猜測，但顯然這還不夠。最佳，愛德華多

1熱度

1回答

在Avro中輸入別名？

是否有可能在Avro中創建類型別名/同義詞（或近似相同）？我想舉例如「長」是一個時間以來的時代，而不必依賴於隱含的上下文。在Haskell而言，這將是這樣的： type EpochTime = Double 在斯卡拉方面相似： type Coordinates = Tuple2[Float, Float] 是否有Avro公司這樣做的類似的方式，否則我將不得不重視一些附加元數據？ Thi

2熱度

1回答

用AvroMultipleOutputs創建多個輸出文件

我有一個使用AvroKeyOutput作爲輸出格式的Reducer。默認情況下，MapReduce會將所有密鑰寫入單個輸出文件。我想爲每個鍵值寫入一個單獨的輸出文件。 Avro提供了AvroMultipleOutputs方法，但示例很苗條。 Apache AvroMultipleOutputs提供的一個演示瞭如何在定義作業時預先配置各種輸出。這些例子表明：伯： AvroMultipleOutpu

4熱度

1回答

如何定義的Avro工會在java中

我已經定義了一個記錄組成的Avro公司架構包含兩個（或多個）不同的記錄，如工會： { "type":"record", "name":"MyCompositeRecord", "fields": [ {"name":"SomeCommonData","type":"string"}, {"name":"MoreCommonData","t