[HADOOP] Hadoop ORC 파일 - 작동 방법 - 메타 데이터를 가져 오는 방법
HADOOPHadoop ORC 파일 - 작동 방법 - 메타 데이터를 가져 오는 방법
ORC 파일을 처음 사용합니다. 나는 많은 블로그를 통과했지만 명확한 이해를 얻지 못했습니다. 아래의 질문을 도와주십시오.
해결법
-
==============================
1.1. 하이브 및 / 또는 HCatalog를 사용하여 Hive 메타 스토어에서 ORC 테이블 구조를 생성, 읽기, 업데이트하십시오 (HCatalog는 Pig / Sqoop / Spark / metastore에 직접 액세스하는 것 이상의 측면 도어입니다)
1. 하이브 및 / 또는 HCatalog를 사용하여 Hive 메타 스토어에서 ORC 테이블 구조를 생성, 읽기, 업데이트하십시오 (HCatalog는 Pig / Sqoop / Spark / metastore에 직접 액세스하는 것 이상의 측면 도어입니다)
2. ALTER TABLE 명령을 사용하면 ORC가 포함 된 저장 유형에 상관없이 열을 추가 / 삭제할 수 있습니다. 그러나 벡터화 된 읽기가 충돌 할 수있는 불쾌한 버그에주의하십시오 (적어도 V0.13 및 V0.14에서는)
3. "색인"이라는 용어는 다소 부적절합니다. 기본적으로 쓰기 시간에 스트라이프 바닥 글에 지속되는 최소 / 최대 정보입니다. 그런 다음 읽기 시간에 명확하게 WHERE 요구 사항을 충족시키지 못하는 모든 줄무늬를 건너 뛰고 일부 경우 I / O를 크게 줄였습니다 (트릭은 예를 들어 MySQL의 InfoBright뿐만 아니라 Oracle Exadata 어플라이언스 (Oracle Marketing의 "스마트 스캔")에 저장됩니다.
5. Hive는 "행 저장소"형식 (텍스트, SequenceFile, AVRO) 및 "열 저장소"형식 (ORC, 마루판)을 모두 사용합니다. 최적화 도구는 초기지도 단계에서 특정 전략과 바로 가기를 사용합니다. 스트라이프 제거, 벡터화 된 연산자 - 물론 직렬화 / 비 직렬화 단계는 열 저장소에 대해 좀 더 정교합니다.
-
==============================
2.이봐, 내가 너의 모든 질문에 너를 도울 수는 없어.하지만 나 한 번해볼 께.
이봐, 내가 너의 모든 질문에 너를 도울 수는 없어.하지만 나 한 번해볼 께.
from https://stackoverflow.com/questions/30094604/hadoop-orc-file-how-it-works-how-to-fetch-metadata by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Spark에서 열 머리글을 지정하고 사용하는 방법? (0) | 2019.07.23 |
---|---|
[HADOOP] Hadoop Namenode 메타 데이터 - fsimage 및 편집 로그 (0) | 2019.07.22 |
[HADOOP] JSP 서블릿 예외 (0) | 2019.07.22 |
[HADOOP] 파이썬에서 하둡 스트리밍 작업 실패 (성공하지 못함) (0) | 2019.07.22 |
[HADOOP] hadoop2.2.0 추가 파일이 발생했습니다. AlreadyBeingCreatedException (0) | 2019.07.22 |