복붙노트

[HADOOP] Hadoop ORC 파일 - 작동 방법 - 메타 데이터를 가져 오는 방법

HADOOP

Hadoop ORC 파일 - 작동 방법 - 메타 데이터를 가져 오는 방법

ORC 파일을 처음 사용합니다. 나는 많은 블로그를 통과했지만 명확한 이해를 얻지 못했습니다. 아래의 질문을 도와주십시오.

해결법

  1. ==============================

    1.1. 하이브 및 / 또는 HCatalog를 사용하여 Hive 메타 스토어에서 ORC 테이블 구조를 생성, 읽기, 업데이트하십시오 (HCatalog는 Pig / Sqoop / Spark / metastore에 직접 액세스하는 것 이상의 측면 도어입니다)

    1. 하이브 및 / 또는 HCatalog를 사용하여 Hive 메타 스토어에서 ORC 테이블 구조를 생성, 읽기, 업데이트하십시오 (HCatalog는 Pig / Sqoop / Spark / metastore에 직접 액세스하는 것 이상의 측면 도어입니다)

    2. ALTER TABLE 명령을 사용하면 ORC가 포함 된 저장 유형에 상관없이 열을 추가 / 삭제할 수 있습니다. 그러나 벡터화 된 읽기가 충돌 할 수있는 불쾌한 버그에주의하십시오 (적어도 V0.13 및 V0.14에서는)

    3. "색인"이라는 용어는 다소 부적절합니다. 기본적으로 쓰기 시간에 스트라이프 바닥 글에 지속되는 최소 / 최대 정보입니다. 그런 다음 읽기 시간에 명확하게 WHERE 요구 사항을 충족시키지 못하는 모든 줄무늬를 건너 뛰고 일부 경우 I / O를 크게 줄였습니다 (트릭은 예를 들어 MySQL의 InfoBright뿐만 아니라 Oracle Exadata 어플라이언스 (Oracle Marketing의 "스마트 스캔")에 저장됩니다.

    5. Hive는 "행 저장소"형식 (텍스트, SequenceFile, AVRO) 및 "열 저장소"형식 (ORC, 마루판)을 모두 사용합니다. 최적화 도구는 초기지도 단계에서 특정 전략과 바로 가기를 사용합니다. 스트라이프 제거, 벡터화 된 연산자 - 물론 직렬화 / 비 직렬화 단계는 열 저장소에 대해 좀 더 정교합니다.

  2. ==============================

    2.이봐, 내가 너의 모든 질문에 너를 도울 수는 없어.하지만 나 한 번해볼 께.

    이봐, 내가 너의 모든 질문에 너를 도울 수는 없어.하지만 나 한 번해볼 께.

  3. from https://stackoverflow.com/questions/30094604/hadoop-orc-file-how-it-works-how-to-fetch-metadata by cc-by-sa and MIT license