복붙노트

[HADOOP] 하이브에서 각 그룹에 대해 샘플링하는 방법은 무엇입니까?

HADOOP

하이브에서 각 그룹에 대해 샘플링하는 방법은 무엇입니까?

1.5 bil + 값을 가진 큰 테이블이 있습니다. 열 중 하나는 category_id이며 ~ 20 개의 고유 값을 갖습니다. 각 범주에 대해 1 밀 값을 갖도록 테이블을 샘플링하고 싶습니다.

Hive로 Random 샘플 테이블을 확인했지만 일치하는 행과 Hive를 포함합니다. 큰 테이블에서 더 작은 테이블 만들기 및 전체 테이블에서 무작위 샘플을 얻는 방법을 알아 냈지만 여전히 얻는 방법을 알 수는 없습니다. 각 category_id에 대한 샘플.

해결법

  1. ==============================

    1.테이블을 여러 파일로 샘플링하고 싶다는 것을 이해합니다. 여러 폴더 / 파일간에 레코드의 균형을 유지하기 위해 Hive 버킷 또는 동적 파티션을 확인할 수 있습니다.

    테이블을 여러 파일로 샘플링하고 싶다는 것을 이해합니다. 여러 폴더 / 파일간에 레코드의 균형을 유지하기 위해 Hive 버킷 또는 동적 파티션을 확인할 수 있습니다.

  2. from https://stackoverflow.com/questions/35887317/how-to-sample-for-each-group-in-hive by cc-by-sa and MIT license