[HADOOP] Java의 mapreduce-gzip 입력 파일
HADOOPJava의 mapreduce-gzip 입력 파일
java를 사용하고 있으며 여러 gz 파일이 들어있는 폴더를 입력으로받을 mapreduce를 작성하려고합니다.
나는 모든 것을 살펴 보았지만 내가 찾은 모든 자습서는 간단한 텍스트 파일을 처리하는 방법을 설명하지만 내 문제를 해결하는 것을 찾지 못했습니다.
나는 직장에서 주위를 물었다. 그러나 나는 익숙하지 않은 스칼라에 대한 언급만을 얻었다.
도움을 주시면 감사하겠습니다.
해결법
-
==============================
1.하둡은 파일 확장자를 검사하여 압축 파일을 감지합니다. Hadoop에서 지원하는 압축 유형은 gzip, bzip2 및 LZO입니다. 이러한 유형의 압축을 사용하여 파일을 추출하기 위해 추가 조치를 취할 필요는 없습니다. 하둡이이를 처리합니다.
하둡은 파일 확장자를 검사하여 압축 파일을 감지합니다. Hadoop에서 지원하는 압축 유형은 gzip, bzip2 및 LZO입니다. 이러한 유형의 압축을 사용하여 파일을 추출하기 위해 추가 조치를 취할 필요는 없습니다. 하둡이이를 처리합니다.
따라서 텍스트 파일에서와 같이 논리를 작성하고 .gz 파일이 포함 된 디렉토리를 입력으로 전달하면됩니다.
그러나 gzip 파일의 문제는 분할 할 수 없다는 것입니다. 각 5GB의 gzip 파일이 있다고 가정하면 각 맵퍼는 기본 블록 크기로 작업하는 대신 전체 5GB 파일에서 처리합니다.
from https://stackoverflow.com/questions/26576985/mapreduce-in-java-gzip-input-files by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Spark 1.3.0 : YARN에서 Pi 예제 실행 실패 (0) | 2019.08.10 |
---|---|
[HADOOP] yarn.log.dir은 어디에 정의되어 있습니까? (0) | 2019.08.10 |
[HADOOP] 하이브 구성에 권한 부여 정책을 적용하는 중 오류 발생 : $ {system : java.io.tmpdir} \ $ {hive.session.id} _resources 디렉토리를 작성할 수 없습니다. (0) | 2019.08.10 |
[HADOOP] Hadoop을 사용하여 데이터 노드에서 임시 파일을 쓰는 문제 (0) | 2019.08.10 |
[HADOOP] oozie에서 여러 jar 파일을 지정하는 방법 (0) | 2019.08.10 |