복붙노트

[HADOOP] 지도 출력 파일을 줄이기 : 파트 R- * 및 파트 - *

HADOOP

지도 출력 파일을 줄이기 : 파트 R- * 및 파트 - *

나는지도에 대한 몇 가지 질문이 출력 부 파일을 줄일 수 있습니다.

해결법

  1. ==============================

    1.일반적으로, 파트 R-의 *은 감속기에서 온다. MultipleOutputs는 다른 명명 규칙을 사용할 수 있습니다. 어떤 단계가 감소하는 경우, 출력은 * 파트 M-수 없습니다. 내가 알고있는 것처럼 정의 감속기가있는 경우, 매퍼 출력에 관계없이 감속기 아무것도 생산하는 경우의 삭제됩니다. 보통 감속기 출력 파일은 LazyOutputFormat을 사용하지 않는 한 그들은 비어있는 경우에도뿐만 아니라 생산 될 것이다. 어디 하나 m-nnnnn은 또는 R-nnnnn은 끝나지 않았다 파트 - * 파일을 발견 했는가?

    일반적으로, 파트 R-의 *은 감속기에서 온다. MultipleOutputs는 다른 명명 규칙을 사용할 수 있습니다. 어떤 단계가 감소하는 경우, 출력은 * 파트 M-수 없습니다. 내가 알고있는 것처럼 정의 감속기가있는 경우, 매퍼 출력에 관계없이 감속기 아무것도 생산하는 경우의 삭제됩니다. 보통 감속기 출력 파일은 LazyOutputFormat을 사용하지 않는 한 그들은 비어있는 경우에도뿐만 아니라 생산 될 것이다. 어디 하나 m-nnnnn은 또는 R-nnnnn은 끝나지 않았다 파트 - * 파일을 발견 했는가?

  2. ==============================

    2.이전 버전 (<0.2), 그들은 출력 일부만-000 *를 사용 하였다. 파트 R-N * 파일 :하지만 지금, 우리는 두 부분-m-n 개의 * (일부-m-00000 N 대표 번호 예)를 참조하십시오. 부 - R-N의 *는 감속기의 출력이다. 파트 m-N *를 결합기로부터 출력된다. (나는 결합기를 사용하지 않는 경우에, 나는 어떤 부분-m-n 개의 *을하지 않습니다. 나는 확실하지 않다 그것이 기본 동작 인 경우.)

    이전 버전 (<0.2), 그들은 출력 일부만-000 *를 사용 하였다. 파트 R-N * 파일 :하지만 지금, 우리는 두 부분-m-n 개의 * (일부-m-00000 N 대표 번호 예)를 참조하십시오. 부 - R-N의 *는 감속기의 출력이다. 파트 m-N *를 결합기로부터 출력된다. (나는 결합기를 사용하지 않는 경우에, 나는 어떤 부분-m-n 개의 *을하지 않습니다. 나는 확실하지 않다 그것이 기본 동작 인 경우.)

  3. ==============================

    3.일부-00000 올드 API에 매퍼 또는 리듀서에 의해 생성 된 출력 디렉토리입니다. 새로운 API에서는 약간 파트 M- 설정 * 매퍼 출력과 부품에 대한 R- * 감속기 출력으로 변경 하였다. 자세한 내용은 OReilly, 페이지 번호 (28)에서 하둡 확실한 가이드를 참조하십시오.

    일부-00000 올드 API에 매퍼 또는 리듀서에 의해 생성 된 출력 디렉토리입니다. 새로운 API에서는 약간 파트 M- 설정 * 매퍼 출력과 부품에 대한 R- * 감속기 출력으로 변경 하였다. 자세한 내용은 OReilly, 페이지 번호 (28)에서 하둡 확실한 가이드를 참조하십시오.

  4. from https://stackoverflow.com/questions/10924852/map-reduce-output-files-part-r-and-part by cc-by-sa and MIT license