복붙노트

[HADOOP] 하이브의 시퀀스 파일 형식 및 마루판 파일 형식은 무엇입니까?

HADOOP

하이브의 시퀀스 파일 형식 및 마루판 파일 형식은 무엇입니까?

시퀀스 파일과 쪽모이 세공 파일을 어디에 사용하는지 실시간으로 설명 할 수 있습니까?

해결법

  1. ==============================

    1.시퀀스 파일

    시퀀스 파일

    시퀀스 파일은 CSV와 비슷한 구조의 이진 형식으로 데이터를 저장합니다. CSV와 마찬가지로 시퀀스 파일은 메타 데이터를 데이터와 함께 저장하지 않으므로 스키마 진화 옵션 만 새로운 필드를 추가합니다. 그러나 CSV와 달리 시퀀스 파일은 블록 압축을 지원합니다. 시퀀스 파일을 읽는 작업이 복잡하기 때문에 일련의 MapReduce 작업에서 사용되는 중간 데이터 저장소와 같은 "비행 중"데이터에만 사용됩니다.

    여기 엔 나무 마루 파일

    마루 파일은 Hadoop 제작자 인 Doug Cutting의 Trevni 프로젝트에서 비롯된 또 다른 컬럼 형식 파일 형식입니다. RC 및 ORC와 마찬가지로 Parquet도 압축 및 쿼리 성능 이점을 누리고 비 컬럼 형식 파일 형식보다 작성 속도가 빠릅니다. 그러나 RC 및 ORC 파일과는 달리 파르 케 (parquet)는 제한된 스키마 진화를 지원합니다. 마루에서 구조의 끝에 새로운 열을 추가 할 수 있습니다. 현재 Hive와 Impala는 새로 추가 된 열을 쿼리 할 수 ​​있지만 Hadoop Pig와 같은 생태계의 다른 도구는 어려움을 겪을 수 있습니다. 마루는 Cloudera에 의해 지원되고 Cloudera Impala를 위해 낙관된다. Hadoop 생태계의 나머지 부분에 대해 원주민 파켓 지원이 빠르게 추가되고 있습니다.

    하이브 (Hive)를 사용한 파르 케 파일 지원에 대한 한 가지 참고 사항 ... 파케 (Perquet) 열 이름이 소문자임을 매우 중요하게 생각합니다. Parquet 파일에 대 / 소문자가 혼합 된 열 이름이 포함되어 있으면 Hive에서 열을 읽을 수 없으며 null 값이있는 열의 쿼리를 반환하고 오류를 기록하지 않습니다. 하이브와 달리 Impala는 대소 문자가 혼합 된 열 이름을 처리합니다. 당신이 내가 만났을 때 정말로 혼란스러운 문제

  2. from https://stackoverflow.com/questions/39646506/what-are-the-sequence-file-format-and-parquet-file-formats-in-hive by cc-by-sa and MIT license