[HADOOP] 작은 파일 및 HDFS 블록
HADOOP작은 파일 및 HDFS 블록
Hadoop 분산 파일 시스템의 블록이 여러 개의 작은 파일을 저장합니까? 아니면 블록 하나만 파일을 저장합니까?
해결법
-
==============================
1.여러 파일은 단일 블록에 저장되지 않습니다. BTW, 하나의 파일을 여러 블록에 저장할 수 있습니다. 파일과 블록 식별자 간의 매핑은 NameNode에 유지됩니다.
여러 파일은 단일 블록에 저장되지 않습니다. BTW, 하나의 파일을 여러 블록에 저장할 수 있습니다. 파일과 블록 식별자 간의 매핑은 NameNode에 유지됩니다.
Hadoop : The Definitive Guide에 따르면
HDFS는 대용량 파일을 처리하도록 설계되었습니다. 작은 파일이 너무 많으면 HDFS의 이름 공간을 저장하기 때문에 NameNode가로드 될 수 있습니다. 너무 많은 작은 파일의 문제를 완화하는 방법에 대한이 기사를 확인하십시오.
-
==============================
2.Hadoop 블록 크기는 Hadoop 저장소 개념입니다. 매번 Hadoop에 파일을 저장하면 블록 크기로 나누어지고 복제 요소 및 데이터 지역에 따라 클러스터를 통해 분산됩니다.
Hadoop 블록 크기는 Hadoop 저장소 개념입니다. 매번 Hadoop에 파일을 저장하면 블록 크기로 나누어지고 복제 요소 및 데이터 지역에 따라 클러스터를 통해 분산됩니다.
세부 정보 :
몇 가지 명령 :
(Dir은 클러스터 당 / data2 / dfs / dn /) :
블록 크기 : 1GB
cd / data / dfs / dn -> current -> Finalized -> subDir0 -> (여기 금이 있습니다)
블록은 작은 파일에 대해 저장소 KB 만 사용했거나 파일 크기가 블록 크기 일 때 + KB 수
-rw-r - r-- 1 hdfs hdfs 91K Sep 13 16:19 blk_1073781504
-rw-r - r-- 1 hdfs hdfs 19K Sep 13 16:21 blk_1073781504_40923.meta
파일이 크면 블록 크기는 다음과 같습니다.
-rw-r - r-- 1 hdfs hdfs 1.0G Aug 31 12:03 blk_1073753814
-rw-r - r-- 1 hdfs hdfs 8.1M Aug 31 12:04 blk_1073753814_12994.meta
블록 저장 장치에 대해 설명하기를 바랍니다. 파일을 블록에 저장하는 방법에 대해 자세히 알고 싶으면 다음을 실행하십시오.
hdfs fsck -blocks -locations
내가 여기서 무엇이든 놓치면 알려주지.
-
==============================
3.HAR 파일 시스템에 의해 관리되는 특수 파트 파일의 HDFS 블록에 여러 개의 작은 파일을 압축하려고하는 HAR (Hadoop Archive) 파일 시스템을 사용하면됩니다.
HAR 파일 시스템에 의해 관리되는 특수 파트 파일의 HDFS 블록에 여러 개의 작은 파일을 압축하려고하는 HAR (Hadoop Archive) 파일 시스템을 사용하면됩니다.
-
==============================
4.블록은 하나의 파일을 저장합니다. 파일이 BlockSize (64 / 128 / ..)보다 크면 각각의 BlockSize로 여러 블록으로 분할됩니다.
블록은 하나의 파일을 저장합니다. 파일이 BlockSize (64 / 128 / ..)보다 크면 각각의 BlockSize로 여러 블록으로 분할됩니다.
-
==============================
5.주요 요점은 hdfs에서 이해할 필요가있다. 파일은 크기에 기반한 블록으로 분할되며 파일이 저장되는 메모리의 일부 블록은 존재하지 않는다 (오해이다)
주요 요점은 hdfs에서 이해할 필요가있다. 파일은 크기에 기반한 블록으로 분할되며 파일이 저장되는 메모리의 일부 블록은 존재하지 않는다 (오해이다)
기본적으로 여러 파일은 단일 블록에 저장되지 않습니다 (아카이브 또는 Har 파일이 아닌 경우).
from https://stackoverflow.com/questions/8562934/small-files-and-hdfs-blocks by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] HiveQL (Hadoop)을 사용하여 Hive에서 두 개의 테이블 조인 [duplicate] (0) | 2019.06.01 |
---|---|
[HADOOP] 네임 노드 파일 수량 제한 (0) | 2019.06.01 |
[HADOOP] Hadoop 프로그래밍 세계의 키워드 문맥은 무엇입니까? (0) | 2019.06.01 |
[HADOOP] Apache Pig의 연결 오류 (0) | 2019.06.01 |
[HADOOP] Windows 구축 / 설치 오류 Hadoop (0) | 2019.06.01 |