[HADOOP] 하둡 클러스터에 대한 최적의 블록 크기
HADOOP하둡 클러스터에 대한 최적의 블록 크기
나는 하둡에서 네 개의 노드 멀티 클러스터에서 일하고 있습니다. 나는 다음과 같이 블록 크기를 가진 일련의 실험을 실행하고 다음과 같이 실행 시간을 계산했다.
그들 모두는 20기가바이트 입력 파일에서 수행됩니다. 64메가바이트 - 32 분, 1백28메가바이트 - 19 분, 256메가바이트 - 15 분, 1기가바이트 - 12.5 분.
나는 기가 바이트 블록 크기가는에서 더 이상 진행해야 하는가? 유사한 동작들이 90기가바이트 파일상에서 수행되는 경우에도 친절 최적의 블록 크기를 설명한다. 감사!
해결법
-
==============================
1.당신은 기가 바이트와 테스트 결과를 비교한다.
당신은 기가 바이트와 테스트 결과를 비교한다.
오직 당신 만이 다음 사항을 고려하십시오 더 큰 블록 크기는하지만, 로컬이 아닌 작업을 위해,지도 작업을 생성의 오버 헤드를 최소화, 하둡은 원격 노드 (여기에 네트워크 대역폭 제한) 모든 블록을 전송할 필요하고 더 작은 블록 크기는 여기에 더 잘 수행 .
귀하의 경우, 4 개 노드 (나는 스위치 또는 LAN에서 로컬 라우터로 연결) 가정, 기가 바이트는 문제가되지 않습니다. 하지만 대답은 더 오류율 다른 사람 enviroments에에서 사실이 아니다.
from https://stackoverflow.com/questions/28145178/optimal-block-size-for-a-hadoop-cluster by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브 설정 hive.optimize.sort.dynamic.partition (0) | 2019.10.09 |
---|---|
[HADOOP] 하이브는 자바 9 지원됩니까? [복제] (0) | 2019.10.09 |
[HADOOP] HDFS에서 이동 데이터는 하이브 테이블에로드 작업을 수행하는 방법에 대한 디렉토리를 하이브 (0) | 2019.10.09 |
[HADOOP] AWS 잘못된 요청 (400) 스파크 (0) | 2019.10.09 |
[HADOOP] 아파치 돼지를 사용하여 파일에서 "문자열 식"을 제거하는 절차 / 코드 무엇을 할 수 있습니까? (0) | 2019.10.09 |