json 문서의 Avro 직렬화에 문제가 누락되었습니다.

아파치 아크로를 사용하여 Elastic Search에서 내 보낸 데이터에 대한 스키마를 HDFS의 많은 Avro 문서로 강제 적용하려고합니다 (드릴로 쿼리 할 때). Avro 기본값에 문제가 있습니다.

이 스키마가 주어질 때 :

{    
  "namespace" : "avrotest",    
  "type" : "record",    
  "name" : "people",                                                                                                   
  "fields" : [                                                                                                         
    {"name" : "firstname", "type" : "string"},                                                                        
    {"name" : "age", "type" :"int", "default": -1}                                                                     
  ]                                                                                                                    
}

나는 { "firstname": "Jane"}과 같은 json 문서를 기대한다. age 필드에 -1의 기본값을 사용하여 직렬화됩니다.

그러나 이것은 일어나지 않는 것 같습니다.

java -jar avro-tools-1.8.0.jar fromjson --schema-file p2.avsc jane.json > jane.avro

Exception in thread "main" org.apache.avro.AvroTypeException: Expected int. Got END_OBJECT
    at org.apache.avro.io.JsonDecoder.error(JsonDecoder.java:697)
    at org.apache.avro.io.JsonDecoder.readInt(JsonDecoder.java:172)
    at org.apache.avro.io.ValidatingDecoder.readInt(ValidatingDecoder.java:83)
    at org.apache.avro.generic.GenericDatumReader.readInt(GenericDatumReader.java:511)
    at org.apache.avro.generic.GenericDatumReader.readWithoutConversion(GenericDatumReader.java:182)
    at org.apache.avro.generic.GenericDatumReader.read(GenericDatumReader.java:152)
    at org.apache.avro.generic.GenericDatumReader.readField(GenericDatumReader.java:240)
    at org.apache.avro.generic.GenericDatumReader.readRecord(GenericDatumReader.java:230)
    at org.apache.avro.generic.GenericDatumReader.readWithoutConversion(GenericDatumReader.java:174)
    at org.apache.avro.generic.GenericDatumReader.read(GenericDatumReader.java:152)
    at org.apache.avro.generic.GenericDatumReader.read(GenericDatumReader.java:144)
    at org.apache.avro.tool.DataFileWriteTool.run(DataFileWriteTool.java:99)
    at org.apache.avro.tool.Main.run(Main.java:87)
    at org.apache.avro.tool.Main.main(Main.java:76)

이게 가능한가, 아니면 나는 무엇인가 놓치고 있는가?

해결법

==============================
1.요점은, 다음과 같이 스키마에서 필드를 선언하면 다음과 같습니다.

요점은, 다음과 같이 스키마에서 필드를 선언하면 다음과 같습니다.
```
{"name": "fieldName", "type": ["int", "null"], default: null }
```
옵션과 같은 필드를 사용하는 것만으로는 충분하지 않습니다. 다음과 같이 선언하십시오.
```
{"name": "fieldName", "type": ["null", "int"], default: null }
```

from https://stackoverflow.com/questions/35778151/trouble-with-avro-serialization-of-json-documents-missing-fields by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Spark 어플리케이션에 Yarn 클러스터 구성 추가 (0)	2019.08.05
[HADOOP] 하이브에서 'load data inpath'와 'location'의 차이점은 무엇입니까? (0)	2019.08.05
[HADOOP] HDFS에서 조회 데이터가있는 Kafka 스트림 (0)	2019.08.05
[HADOOP] 자바 5와 함께 0.20.2 API hadoop 버전 (0)	2019.08.05
[HADOOP] 별칭에서 모든 행의 필드 합계를 계산하는 방법 (0)	2019.08.05

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] json 문서의 Avro 직렬화에 문제가 누락되었습니다.

json 문서의 Avro 직렬화에 문제가 누락되었습니다.

해결법

1.요점은, 다음과 같이 스키마에서 필드를 선언하면 다음과 같습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역