2017-05-14 99 views
0

我將從複雜JSON對象導入的數據存儲爲Avro格式。Hadoop:查詢/閱讀Avro文件

JSON對象由具有嵌套對象和對象數組的對象表示。 Avro的模式是這樣的:

{ 
    "type" : "record", 
    "name" : "userInfo", 
    "namespace" : "my.example", 
    "fields" : [{"name" : "username", 
       "type" : "string", 
       "default" : "NONE"}, 

       {"name" : "age", 
       "type" : "int", 
       "default" : -1}, 

       {"name" : "phone", 
        "type" : "string", 
        "default" : "NONE"}, 

       {"name" : "housenum", 
        "type" : "string", 
        "default" : "NONE"}, 

        {"name" : "address", 
        "type" : { 
         "type" : "record", 
         "name" : "mailing_address", 
         "fields" : [ 
          {"name" : "street", 
          "type" : "string", 
          "default" : "NONE"}, 

          {"name" : "city", 
          "type" : "string", 
          "default" : "NONE"}, 

          {"name" : "state_prov", 
          "type" : "string", 
          "default" : "NONE"}, 

          {"name" : "country", 
          "type" : "string", 
          "default" : "NONE"}, 

          {"name" : "zip", 
          "type" : "string", 
          "default" : "NONE"} 
          ]}, 
          "default" : {} 
       } 
    ] 
} 

我用NiFi到JSON轉換爲Avro公司和序列化文件存儲在Hadoop中(目前我只使用純的Hadoop): enter image description here

我的問題:

出於測試目的,我想查詢存儲HDFS(Avro格式)的數據。

所以在這一點上,我有點困惑,因爲圍繞Hadoop的很多工具和技術.. 我該如何正確使用它?什麼工具和工作流程?

回答