복붙노트

[HADOOP] 어떻게 하둡 시퀀스 파일의 크기를 제한하려면?

HADOOP

어떻게 하둡 시퀀스 파일의 크기를 제한하려면?

내가 입력으로 TXT를 사용하여 하둡 서열 파일을 쓰고 있어요. 나는 텍스트 파일에서 시퀀스 파일을 작성하는 방법을 알고있다.

하지만 난 말할 일부 특정 크기로 256MB의 출력 시퀀스 파일을 제한 할 수 있습니다.

이 작업을 수행 할 수있는 붙박이 방법이 있습니까?

해결법

  1. ==============================

    1.AFAIK 당신은 출력 파일 크기를 제한하는 사용자 정의 출력 형식을 작성해야 - 기본적으로 FileOutputFormat는 감속기 당 하나의 출력 파일을 만들 수 있습니다.

    AFAIK 당신은 출력 파일 크기를 제한하는 사용자 정의 출력 형식을 작성해야 - 기본적으로 FileOutputFormat는 감속기 당 하나의 출력 파일을 만들 수 있습니다.

    또 다른 옵션은 정상적으로 다음 다음 다음 신원 매퍼 및 최소 / 최대 입력 분할 크기를 수정과 두 번째 작업 (전용 맵), 각 매퍼는 ¬256MB 각을 처리 할 수 ​​있도록 시퀀스 파일을 만드는 것입니다. 이 1GB의 OG A 입력 파일 4 매퍼에 의해 처리 될 수 평균과 ¬256MB의 출력 파일을 생성한다. 입력 파일이 300메가바이트 (메가 바이트 매퍼와 44메가바이트 매퍼가 실행)을 말한다입니다 당신은 작은 파일을 얻을 것이다.

    당신이 찾고있는 속성은 다음과 같습니다

    그들은 모두 바이트 크기로 구성, 그래서 268435456로 모두 설정

  2. from https://stackoverflow.com/questions/15610116/how-to-limit-size-of-hadoop-sequence-file by cc-by-sa and MIT license