복붙노트

[HADOOP] Java의 mapreduce-gzip 입력 파일

HADOOP

Java의 mapreduce-gzip 입력 파일

java를 사용하고 있으며 여러 gz 파일이 들어있는 폴더를 입력으로받을 mapreduce를 작성하려고합니다.

나는 모든 것을 살펴 보았지만 내가 찾은 모든 자습서는 간단한 텍스트 파일을 처리하는 방법을 설명하지만 내 문제를 해결하는 것을 찾지 못했습니다.

나는 직장에서 주위를 물었다. 그러나 나는 익숙하지 않은 스칼라에 대한 언급만을 얻었다.

도움을 주시면 감사하겠습니다.

해결법

  1. ==============================

    1.하둡은 파일 확장자를 검사하여 압축 파일을 감지합니다. Hadoop에서 지원하는 압축 유형은 gzip, bzip2 및 LZO입니다. 이러한 유형의 압축을 사용하여 파일을 추출하기 위해 추가 조치를 취할 필요는 없습니다. 하둡이이를 처리합니다.

    하둡은 파일 확장자를 검사하여 압축 파일을 감지합니다. Hadoop에서 지원하는 압축 유형은 gzip, bzip2 및 LZO입니다. 이러한 유형의 압축을 사용하여 파일을 추출하기 위해 추가 조치를 취할 필요는 없습니다. 하둡이이를 처리합니다.

    따라서 텍스트 파일에서와 같이 논리를 작성하고 .gz 파일이 포함 된 디렉토리를 입력으로 전달하면됩니다.

    그러나 gzip 파일의 문제는 분할 할 수 없다는 것입니다. 각 5GB의 gzip 파일이 있다고 가정하면 각 맵퍼는 기본 블록 크기로 작업하는 대신 전체 5GB 파일에서 처리합니다.

  2. from https://stackoverflow.com/questions/26576985/mapreduce-in-java-gzip-input-files by cc-by-sa and MIT license