복붙노트

[HADOOP] 하나의 MapReduce 작업 인 하둡을 긁어내어 키로 여러 출력 작성

HADOOP

하나의 MapReduce 작업 인 하둡을 긁어내어 키로 여러 출력 작성

하나의 Map Reduce Job에서 Scalding (/ cascading)을 사용하여 키에 의존하는 다중 출력에 어떻게 쓰는가? 물론 가능한 모든 키에 대해 .filter를 사용할 수 있지만, 이는 많은 작업을 해할 끔찍한 해킹입니다.

해결법

  1. ==============================

    1.Scalding에는 TemplatedTsv가 있습니다 (버전 0.9.0rc16 이상). Cascading TemplateTsv와 동일합니다.

    Scalding에는 TemplatedTsv가 있습니다 (버전 0.9.0rc16 이상). Cascading TemplateTsv와 동일합니다.

    Tsv(args("input"), ('COUNTRY, 'GDP))
    .read
    .write(TemplatedTsv(args("output"), "%s", 'COUNTRY))
    // it will create a directory for each country under "output" path in Hadoop mode.
    
  2. ==============================

    2.MultipleOutputFormat을 사용하고 출력 결과 형식을 사용하여 사용자 정의 출력 클래스를 작성하려면 다음과 같은 기타 질문에서 추정하십시오. 여러 파일을 단일 매퍼로 결합하는 TextLine과 같은 Scalding Source를 만듭니다. 압축 출력 스케일링 / 계단식 TsvCompressed

    MultipleOutputFormat을 사용하고 출력 결과 형식을 사용하여 사용자 정의 출력 클래스를 작성하려면 다음과 같은 기타 질문에서 추정하십시오. 여러 파일을 단일 매퍼로 결합하는 TextLine과 같은 Scalding Source를 만듭니다. 압축 출력 스케일링 / 계단식 TsvCompressed

  3. ==============================

    3.계단식 사용자 그룹에 대한 제안은 계단식 TemplateTap을 사용하도록 제안합니다. 하지만 이것을 Scalding에 연결하는 방법을 모르겠습니다.

    계단식 사용자 그룹에 대한 제안은 계단식 TemplateTap을 사용하도록 제안합니다. 하지만 이것을 Scalding에 연결하는 방법을 모르겠습니다.

  4. from https://stackoverflow.com/questions/23994383/write-to-multiple-outputs-by-key-scalding-hadoop-one-mapreduce-job by cc-by-sa and MIT license