복붙노트

[HADOOP] 하둡 청크 크기 대 분할 대 블록 크기

HADOOP

하둡 청크 크기 대 분할 대 블록 크기

하둡 개념에 대해 약간 혼란스러워합니다.

하둡 청크 크기, 분할 크기 및 블록 크기의 차이점은 무엇입니까?

미리 감사드립니다.

해결법

  1. ==============================

    1.블록 크기와 청크 크기가 동일합니다. 분할 크기는 블록 / 청크 크기와 다를 수 있습니다.

    블록 크기와 청크 크기가 동일합니다. 분할 크기는 블록 / 청크 크기와 다를 수 있습니다.

    파일 축소 알고리즘은 파일의 실제 블록에서 작동하지 않습니다. 논리적 입력 분할에서 작동합니다. 입력 분할은 레코드가 작성된 위치에 따라 다릅니다. 레코드는 두 맵퍼에 걸쳐있을 수 있습니다.

    HDFS가 설정되는 방식에 따라 매우 큰 파일을 큰 블록 (예 : 128MB 측정)으로 나누고 이러한 블록의 사본 3 개를 클러스터의 다른 노드에 저장합니다. HDFS는 이러한 파일의 내용을 인식하지 못합니다.

    이 문제를 해결하기 위해 Hadoop은 입력 분할이라고하는 파일 블록에 저장된 데이터의 논리적 표현을 사용합니다. MapReduce 작업 클라이언트가 입력 분할을 계산할 때 블록의 첫 번째 전체 레코드가 시작되는 위치와 블록의 마지막 레코드가 끝나는 위치를 알아냅니다.

    블록의 마지막 레코드가 불완전한 경우 입력 분할에는 다음 블록의 위치 정보와 레코드를 완료하는 데 필요한 데이터의 바이트 오프셋이 포함됩니다.

    자세한 내용은이 기사를 참조하십시오.

    관련 SE 질문 :

    Hadoop / HDFS 파일 분할 정보

    하둡에서 분할 크기와 블록 크기

  2. from https://stackoverflow.com/questions/34704312/hadoop-chunk-size-vs-split-vs-block-size by cc-by-sa and MIT license