하나의 MapReduce 작업 인 하둡을 긁어내어 키로 여러 출력 작성

하나의 Map Reduce Job에서 Scalding (/ cascading)을 사용하여 키에 의존하는 다중 출력에 어떻게 쓰는가? 물론 가능한 모든 키에 대해 .filter를 사용할 수 있지만, 이는 많은 작업을 해할 끔찍한 해킹입니다.

해결법

==============================
1.Scalding에는 TemplatedTsv가 있습니다 (버전 0.9.0rc16 이상). Cascading TemplateTsv와 동일합니다.

Scalding에는 TemplatedTsv가 있습니다 (버전 0.9.0rc16 이상). Cascading TemplateTsv와 동일합니다.
```
Tsv(args("input"), ('COUNTRY, 'GDP))
.read
.write(TemplatedTsv(args("output"), "%s", 'COUNTRY))
// it will create a directory for each country under "output" path in Hadoop mode.
```
==============================
2.MultipleOutputFormat을 사용하고 출력 결과 형식을 사용하여 사용자 정의 출력 클래스를 작성하려면 다음과 같은 기타 질문에서 추정하십시오. 여러 파일을 단일 매퍼로 결합하는 TextLine과 같은 Scalding Source를 만듭니다. 압축 출력 스케일링 / 계단식 TsvCompressed

MultipleOutputFormat을 사용하고 출력 결과 형식을 사용하여 사용자 정의 출력 클래스를 작성하려면 다음과 같은 기타 질문에서 추정하십시오. 여러 파일을 단일 매퍼로 결합하는 TextLine과 같은 Scalding Source를 만듭니다. 압축 출력 스케일링 / 계단식 TsvCompressed
==============================
3.계단식 사용자 그룹에 대한 제안은 계단식 TemplateTap을 사용하도록 제안합니다. 하지만 이것을 Scalding에 연결하는 방법을 모르겠습니다.

계단식 사용자 그룹에 대한 제안은 계단식 TemplateTap을 사용하도록 제안합니다. 하지만 이것을 Scalding에 연결하는 방법을 모르겠습니다.

from https://stackoverflow.com/questions/23994383/write-to-multiple-outputs-by-key-scalding-hadoop-one-mapreduce-job by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 작은 파일을위한 HDFS 성능 (0)	2019.07.21
[HADOOP] S3 위치로 하이브에 외부 테이블을 만들면 데이터가 전송됩니까? (0)	2019.07.21
[HADOOP] 예외 : java.lang.Exception : master 'yarn'을 사용하여 실행하는 경우 HADOOP_CONF_DIR 또는 YARN_CONF_DIR을 환경에 설정해야합니다. 스파크에 (0)	2019.07.21
[HADOOP] 아파치 마루로 500GB SQL 테이블을 변환하는 방법? (0)	2019.07.21
[HADOOP] Oracle에서 HDFS로 데이터 이동, HDFS에서 Teradata로 이동 및 처리 (0)	2019.07.21

복붙노트

[HADOOP] 하나의 MapReduce 작업 인 하둡을 긁어내어 키로 여러 출력 작성

하나의 MapReduce 작업 인 하둡을 긁어내어 키로 여러 출력 작성

해결법

1.Scalding에는 TemplatedTsv가 있습니다 (버전 0.9.0rc16 이상). Cascading TemplateTsv와 동일합니다.

3.계단식 사용자 그룹에 대한 제안은 계단식 TemplateTap을 사용하도록 제안합니다. 하지만 이것을 Scalding에 연결하는 방법을 모르겠습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바