[HADOOP] 다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?
HADOOP다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?
하이브 테이블에서 DESCRIBE EXTENDED 명령을 실행하면 결과는 출력 끝 부분에 totalSize 및 rawDataSize 값을 표시합니다.
이 필드들은 무엇을 의미합니까?
전의:
hive > DESCRIBE EXTENDED <TableName>
Output Results:
Table(tableName:TablenameXXXXX, dbName:XXxXXX,
.......... .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})
해결법
-
==============================
1.rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.
rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.
-
==============================
2.데이터의 크기는 두 가지 통계로 설명됩니다.
데이터의 크기는 두 가지 통계로 설명됩니다.
MapReduce의 하이브는 totalSize를 사용합니다. 둘 다 사용할 수있는 경우 Hive on Spark는 rawDataSize를 사용합니다. 압축 및 직렬화 때문에 동일한 데이터 세트에 대해 totalSize와 rawDataSize 간의 큰 차이가 발생할 수 있습니다.
-
==============================
3.필드의 의미는 다음과 같습니다.
필드의 의미는 다음과 같습니다.
from https://stackoverflow.com/questions/34626731/what-does-the-following-fields-totalsize-and-rawdatasize-mean-in-describe-e by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 네임 노드 HA (UnknownHostException : nameservice1) (0) | 2019.06.22 |
---|---|
[HADOOP] 클러스터에서 Mapper 입력으로 로컬 파일 시스템 디렉토리 실행 (0) | 2019.06.22 |
[HADOOP] Presto에서 JSON 배열을 교차 제거하는 방법 (0) | 2019.06.22 |
[HADOOP] Hadoop에서 HDFS 위치 란 무엇입니까? (0) | 2019.06.22 |
[HADOOP] 값을 사용하여 스파크 결과 내림차순 튜플을 정렬하는 법 (0) | 2019.06.22 |