복붙노트

[HADOOP] 다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?

HADOOP

다음 필드는 무엇입니까? 'totalSize'및 'rawDataSize'는 하이브의 DESCRIBE EXTENDED 쿼리 출력에서의 의미입니까?

하이브 테이블에서 DESCRIBE EXTENDED 명령을 실행하면 결과는 출력 끝 부분에 totalSize 및 rawDataSize 값을 표시합니다.

이 필드들은 무엇을 의미합니까?

전의:

hive > DESCRIBE EXTENDED <TableName>

Output Results:

Table(tableName:TablenameXXXXX, dbName:XXxXXX,
..........       .......................
numRows=116429472, totalSize=3835205544, rawDataSize=35040221600})

해결법

  1. ==============================

    1.rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.

    rawDataSize는 원래 데이터 세트의 크기이고, totalSize는 필요한 저장 영역의 크기입니다. totalSize가 rawDataSize보다 작을 때 데이터를 압축하기 때문에 ORC 파일 형식에 적용 할 수 있습니다.

  2. ==============================

    2.데이터의 크기는 두 가지 통계로 설명됩니다.

    데이터의 크기는 두 가지 통계로 설명됩니다.

    MapReduce의 하이브는 totalSize를 사용합니다. 둘 다 사용할 수있는 경우 Hive on Spark는 rawDataSize를 사용합니다. 압축 및 직렬화 때문에 동일한 데이터 세트에 대해 totalSize와 rawDataSize 간의 큰 차이가 발생할 수 있습니다.

  3. ==============================

    3.필드의 의미는 다음과 같습니다.

    필드의 의미는 다음과 같습니다.

  4. from https://stackoverflow.com/questions/34626731/what-does-the-following-fields-totalsize-and-rawdatasize-mean-in-describe-e by cc-by-sa and MIT license