복붙노트

[HADOOP] HBase를 스캔 작업 캐싱

HADOOP

HBase를 스캔 작업 캐싱

HBase를 스캔 메커니즘에서 setCaching와 setBatch의 차이점은 무엇입니까? 나는 스캔 대량의 데이터 중 최적의 성능을 위해 무엇을 사용 하는가?

해결법

  1. ==============================

    1.당신이 많은 열 (또는 매우 큰 것)와 수퍼 와이드 테이블이 없다면 당신은) (완전 setBatch (잊어)와 setCaching에만 집중해야한다 :

    당신이 많은 열 (또는 매우 큰 것)와 수퍼 와이드 테이블이 없다면 당신은) (완전 setBatch (잊어)와 setCaching에만 집중해야한다 :

    setCaching (INT 캐싱)

    스캐너에 전달됩니다 캐싱 행의 수를 설정합니다. 설정하지 않으면, 구성 설정 HConstants.HBASE_CLIENT_SCANNER_CACHING이 적용됩니다. 높은 캐시 값은 빠른 스캐너를 가능하게하지만, 더 많은 메모리를 사용합니다.

    setBatch (INT 배치)

    ) (다음 각 호에 대한 반환 값의 최대 수를 설정

    setBatch 각 호 / 반복에 반환되어야하는 행의 값들의 수에 대한 것이다. 여기에 대한 좋은 게시물입니다 : http://blog.jdwyah.com/2013/08/hbase-scan-batch-vs-cache.html

  2. ==============================

    2.결과를 반환하기 전에 캐시 행의 수에 setCaching 설정, 스캔 결과가 반환되기 전에 채워집니다 스캐너 캐시를 지정합니다. 기본적으로 테이블에 캐시 설정이 사용됩니다. 목표는 IO 및 네트워크 부하를 분산하는 것입니다.

    결과를 반환하기 전에 캐시 행의 수에 setCaching 설정, 스캔 결과가 반환되기 전에 채워집니다 스캐너 캐시를 지정합니다. 기본적으로 테이블에 캐시 설정이 사용됩니다. 목표는 IO 및 네트워크 부하를 분산하는 것입니다.

    공공 스캔 setCaching (INT 캐싱)

    테이블이 매우 넓은 행 (열 많은 수의 행)이있는 경우 열 수, 사용 setBatch (INT 배치)을 제한하고 하나 개의 배치에 반환 할 열 수로 설정합니다. 열이 많은 수의 권장되는 디자인 패턴이 아니다.

    공공 스캔 setBatch (INT 배치)

    이 http://www.cloudera.com/documentation/enterprise/5-5-x/topics/admin_hbase_scanning.html 좋은 링크입니다

  3. from https://stackoverflow.com/questions/28456876/hbase-scan-operation-caching by cc-by-sa and MIT license