[HADOOP] 하이브에서 각 그룹에 대해 샘플링하는 방법은 무엇입니까?
HADOOP하이브에서 각 그룹에 대해 샘플링하는 방법은 무엇입니까?
1.5 bil + 값을 가진 큰 테이블이 있습니다. 열 중 하나는 category_id이며 ~ 20 개의 고유 값을 갖습니다. 각 범주에 대해 1 밀 값을 갖도록 테이블을 샘플링하고 싶습니다.
Hive로 Random 샘플 테이블을 확인했지만 일치하는 행과 Hive를 포함합니다. 큰 테이블에서 더 작은 테이블 만들기 및 전체 테이블에서 무작위 샘플을 얻는 방법을 알아 냈지만 여전히 얻는 방법을 알 수는 없습니다. 각 category_id에 대한 샘플.
해결법
-
==============================
1.테이블을 여러 파일로 샘플링하고 싶다는 것을 이해합니다. 여러 폴더 / 파일간에 레코드의 균형을 유지하기 위해 Hive 버킷 또는 동적 파티션을 확인할 수 있습니다.
테이블을 여러 파일로 샘플링하고 싶다는 것을 이해합니다. 여러 폴더 / 파일간에 레코드의 균형을 유지하기 위해 Hive 버킷 또는 동적 파티션을 확인할 수 있습니다.
from https://stackoverflow.com/questions/35887317/how-to-sample-for-each-group-in-hive by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Fi-Ware Cosmos : 이름 노드가 안전 모드에 있습니다 (0) | 2019.09.06 |
---|---|
[HADOOP] 파일에 열 수가 다른 경우 동일한 Hive 테이블에 데이터를로드하는 방법 (0) | 2019.09.06 |
[HADOOP] oozie를 통한 sqoop 내보내기 실패 (0) | 2019.09.06 |
[HADOOP] Webhdfs가 잘못된 데이터 노드 주소를 반환합니다 (0) | 2019.09.06 |
[HADOOP] Pig ERROR 2998 : 처리되지 않은 내부 오류입니다. 정적 (잘못된 이름 : com / company / Static) (0) | 2019.09.06 |