다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?

하이브 테이블에서 DESCRIBE EXTENDED 명령을 실행하면 결과는 출력 끝 부분에 totalSize 및 rawDataSize 값을 표시합니다.

이 필드들은 무엇을 의미합니까?

전의:

hive > DESCRIBE EXTENDED <TableName>

Output Results:

Table(tableName:TablenameXXXXX, dbName:XXxXXX,
..........       .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})

해결법

==============================
1.rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.

rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.
==============================
2.데이터의 크기는 두 가지 통계로 설명됩니다.

데이터의 크기는 두 가지 통계로 설명됩니다.

MapReduce의 하이브는 totalSize를 사용합니다. 둘 다 사용할 수있는 경우 Hive on Spark는 rawDataSize를 사용합니다. 압축 및 직렬화 때문에 동일한 데이터 세트에 대해 totalSize와 rawDataSize 간의 큰 차이가 발생할 수 있습니다.
==============================
3.필드의 의미는 다음과 같습니다.

필드의 의미는 다음과 같습니다.

from https://stackoverflow.com/questions/34626731/what-does-the-following-fields-totalsize-and-rawdatasize-mean-in-describe-e by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 네임 노드 HA (UnknownHostException : nameservice1) (0)	2019.06.22
[HADOOP] 클러스터에서 Mapper 입력으로 로컬 파일 시스템 디렉토리 실행 (0)	2019.06.22
[HADOOP] Presto에서 JSON 배열을 교차 제거하는 방법 (0)	2019.06.22
[HADOOP] Hadoop에서 HDFS 위치 란 무엇입니까? (0)	2019.06.22
[HADOOP] 값을 사용하여 스파크 결과 내림차순 튜플을 정렬하는 법 (0)	2019.06.22

복붙노트

[HADOOP] 다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?

다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?

해결법

1.rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.

2.데이터의 크기는 두 가지 통계로 설명됩니다.

3.필드의 의미는 다음과 같습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바