[HADOOP] 하둡 청크 크기 대 분할 대 블록 크기
HADOOP하둡 청크 크기 대 분할 대 블록 크기
하둡 개념에 대해 약간 혼란스러워합니다.
하둡 청크 크기, 분할 크기 및 블록 크기의 차이점은 무엇입니까?
미리 감사드립니다.
해결법
-
==============================
1.블록 크기와 청크 크기가 동일합니다. 분할 크기는 블록 / 청크 크기와 다를 수 있습니다.
블록 크기와 청크 크기가 동일합니다. 분할 크기는 블록 / 청크 크기와 다를 수 있습니다.
파일 축소 알고리즘은 파일의 실제 블록에서 작동하지 않습니다. 논리적 입력 분할에서 작동합니다. 입력 분할은 레코드가 작성된 위치에 따라 다릅니다. 레코드는 두 맵퍼에 걸쳐있을 수 있습니다.
HDFS가 설정되는 방식에 따라 매우 큰 파일을 큰 블록 (예 : 128MB 측정)으로 나누고 이러한 블록의 사본 3 개를 클러스터의 다른 노드에 저장합니다. HDFS는 이러한 파일의 내용을 인식하지 못합니다.
이 문제를 해결하기 위해 Hadoop은 입력 분할이라고하는 파일 블록에 저장된 데이터의 논리적 표현을 사용합니다. MapReduce 작업 클라이언트가 입력 분할을 계산할 때 블록의 첫 번째 전체 레코드가 시작되는 위치와 블록의 마지막 레코드가 끝나는 위치를 알아냅니다.
블록의 마지막 레코드가 불완전한 경우 입력 분할에는 다음 블록의 위치 정보와 레코드를 완료하는 데 필요한 데이터의 바이트 오프셋이 포함됩니다.
자세한 내용은이 기사를 참조하십시오.
관련 SE 질문 :
Hadoop / HDFS 파일 분할 정보
하둡에서 분할 크기와 블록 크기
from https://stackoverflow.com/questions/34704312/hadoop-chunk-size-vs-split-vs-block-size by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hadoop Hive-Hive JDBC 클라이언트와 함께 사용하기 위해 'jar'을 추가하려면 어떻게해야합니까? (0) | 2019.08.09 |
---|---|
[HADOOP] 빈 문자열과 중복 된 CSV 파일을 DynamoDB로 가져 오기 (0) | 2019.08.09 |
[HADOOP] 스트리밍 작업을 위해 Hadoop 노드에 R 패키지를 임시로 설치 (0) | 2019.08.09 |
[HADOOP] MapReduce 작업에서 Hive에 파티션 추가 (0) | 2019.08.09 |
[HADOOP] Apache Sqoop과 Flume을 서로 바꿔 사용할 수 있습니까? (0) | 2019.08.09 |