복붙노트

[HADOOP] 하둡 클러스터에 대한 최적의 블록 크기

HADOOP

하둡 클러스터에 대한 최적의 블록 크기

나는 하둡에서 네 개의 노드 멀티 클러스터에서 일하고 있습니다. 나는 다음과 같이 블록 크기를 가진 일련의 실험을 실행하고 다음과 같이 실행 시간을 계산했다.

그들 모두는 20기가바이트 입력 파일에서 수행됩니다. 64메가바이트 - 32 분, 1백28메가바이트 - 19 분, 256메가바이트 - 15 분, 1기가바이트 - 12.5 분.

나는 기가 바이트 블록 크기가는에서 더 이상 진행해야 하는가? 유사한 동작들이 90기가바이트 파일상에서 수행되는 경우에도 친절 최적의 블록 크기를 설명한다. 감사!

해결법

  1. ==============================

    1.당신은 기가 바이트와 테스트 결과를 비교한다.

    당신은 기가 바이트와 테스트 결과를 비교한다.

    오직 당신 만이 다음 사항을 고려하십시오 더 큰 블록 크기는하지만, 로컬이 아닌 작업을 위해,지도 작업을 생성의 오버 헤드를 최소화, 하둡은 원격 노드 (여기에 네트워크 대역폭 제한) 모든 블록을 전송할 필요하고 더 작은 블록 크기는 여기에 더 잘 수행 .

    귀하의 경우, 4 개 노드 (나는 스위치 또는 LAN에서 로컬 라우터로 연결) 가정, 기가 바이트는 문제가되지 않습니다. 하지만 대답은 더 오류율 다른 사람 enviroments에에서 사실이 아니다.

  2. from https://stackoverflow.com/questions/28145178/optimal-block-size-for-a-hadoop-cluster by cc-by-sa and MIT license