복붙노트

[HADOOP] hadoop에서 SUCCESS 및 part-r-00000 파일이란 무엇입니까?

HADOOP

hadoop에서 SUCCESS 및 part-r-00000 파일이란 무엇입니까?

우분투 컴퓨터에서 자주 Hadoop을 사용하지만 SUCCESS 및 part-r-00000 파일에 대해서는 생각 해보지 않았습니다. 출력은 항상 part-r-00000 파일에 있지만 SUCCESS 파일의 사용은 무엇입니까? 출력 파일의 이름이 part-r-0000 인 이유는 무엇입니까? 어떤 의미가 있습니까 / 어떤 명명법인가요 아니면 그냥 무작위로 정의 되었습니까?

해결법

  1. ==============================

    1.http://www.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/을 참조하십시오.

    http://www.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache-hadoop-0-21/을 참조하십시오.

    일반적으로 작업 스케줄링 시스템 (예 : OOZIE)에서이 디렉토리의 내용에 대한 후속 처리가 모든 데이터가 출력 될 때 시작될 수 있음을 나타 내기 위해 사용됩니다.

    업데이트 (의견에 대한 응답)

    출력 파일의 이름은 기본적으로 part-x-yyyyy입니다. 여기서,

    따라서 32 개의 감속기가있는 작업에는 part-r-00000 ~ part-r-00031이라는 파일이 각 감속기 작업마다 하나씩 있습니다.

  2. from https://stackoverflow.com/questions/10666488/what-are-success-and-part-r-00000-files-in-hadoop by cc-by-sa and MIT license