[HADOOP] HBase를 스캔 작업 캐싱
HADOOPHBase를 스캔 작업 캐싱
HBase를 스캔 메커니즘에서 setCaching와 setBatch의 차이점은 무엇입니까? 나는 스캔 대량의 데이터 중 최적의 성능을 위해 무엇을 사용 하는가?
해결법
-
==============================
1.당신이 많은 열 (또는 매우 큰 것)와 수퍼 와이드 테이블이 없다면 당신은) (완전 setBatch (잊어)와 setCaching에만 집중해야한다 :
당신이 많은 열 (또는 매우 큰 것)와 수퍼 와이드 테이블이 없다면 당신은) (완전 setBatch (잊어)와 setCaching에만 집중해야한다 :
setCaching (INT 캐싱)
스캐너에 전달됩니다 캐싱 행의 수를 설정합니다. 설정하지 않으면, 구성 설정 HConstants.HBASE_CLIENT_SCANNER_CACHING이 적용됩니다. 높은 캐시 값은 빠른 스캐너를 가능하게하지만, 더 많은 메모리를 사용합니다.
setBatch (INT 배치)
) (다음 각 호에 대한 반환 값의 최대 수를 설정
setBatch 각 호 / 반복에 반환되어야하는 행의 값들의 수에 대한 것이다. 여기에 대한 좋은 게시물입니다 : http://blog.jdwyah.com/2013/08/hbase-scan-batch-vs-cache.html
-
==============================
2.결과를 반환하기 전에 캐시 행의 수에 setCaching 설정, 스캔 결과가 반환되기 전에 채워집니다 스캐너 캐시를 지정합니다. 기본적으로 테이블에 캐시 설정이 사용됩니다. 목표는 IO 및 네트워크 부하를 분산하는 것입니다.
결과를 반환하기 전에 캐시 행의 수에 setCaching 설정, 스캔 결과가 반환되기 전에 채워집니다 스캐너 캐시를 지정합니다. 기본적으로 테이블에 캐시 설정이 사용됩니다. 목표는 IO 및 네트워크 부하를 분산하는 것입니다.
공공 스캔 setCaching (INT 캐싱)
테이블이 매우 넓은 행 (열 많은 수의 행)이있는 경우 열 수, 사용 setBatch (INT 배치)을 제한하고 하나 개의 배치에 반환 할 열 수로 설정합니다. 열이 많은 수의 권장되는 디자인 패턴이 아니다.
공공 스캔 setBatch (INT 배치)
이 http://www.cloudera.com/documentation/enterprise/5-5-x/topics/admin_hbase_scanning.html 좋은 링크입니다
from https://stackoverflow.com/questions/28456876/hbase-scan-operation-caching by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Ambari 서버 설정 : OSError : [errno를 2] 해당 파일하거나 디렉토리 (0) | 2019.09.27 |
---|---|
[HADOOP] 하둡은 의사 모드에서 작동하지 않습니다 최대 동시 맵리 듀스 작업을 설정 (0) | 2019.09.27 |
[HADOOP] 하이브 COUNT (*) 쿼리가 호출되지 맵리 듀스 (0) | 2019.09.27 |
[HADOOP] 하이브에서 테이블 및 열 검색 (0) | 2019.09.27 |
[HADOOP] 타임 스탬프에 따라 하이브에서 HBase를 테이블 데이터에 액세스 (0) | 2019.09.27 |