hadoop / map reduce에서 고정 된 수의 라인으로 출력 파일을 만드는 방법은 무엇입니까?

라인 수가 다른 N 개의 입력 파일이 있다고 가정 해 봅시다. 각 출력 파일이 정확히 K 개의 라인 수를 갖는 출력 파일을 생성해야합니다 (

고마워 신

해결법

==============================
1.입력 파일에 990 개의 레코드가 있다고 가정하면이 레코드는 각각 100 개 레코드의 9 개 파일과 90 개 레코드의 마지막 파일로 분할되어야합니다. 총 10 개의 파일

입력 파일에 990 개의 레코드가 있다고 가정하면이 레코드는 각각 100 개 레코드의 9 개 파일과 90 개 레코드의 마지막 파일로 분할되어야합니다. 총 10 개의 파일

NLineInputFormat을 사용하고 mapred.line.input.format.linespermap을 100으로 설정하십시오.이 방법으로 각 맵퍼는 입력 데이터 세트에서 100 개의 라인을 처리합니다. 감속기 수를 10 (출력 파일 수)으로 설정하십시오.

매퍼에서 1에서 10 사이의 키 (출력 파일 수)를 내보내고 값을 입력 레코드로 내 보냅니다. 매퍼가 내 보낸 키가 1에서 10 사이의 균형을 이루고 기울어지지 않았는지 확인하십시오.
==============================
2.다른 접근 방식은 단일 감속기를 사용하고 multipleoutputformat을 사용하여 여러 개의 출력 파일을 생성하는 것입니다. 이 감속기에서는 카운터를 가지고 필요할 때 출력 파일 이름을 변경할 수 있습니다.

다른 접근 방식은 단일 감속기를 사용하고 multipleoutputformat을 사용하여 여러 개의 출력 파일을 생성하는 것입니다. 이 감속기에서는 카운터를 가지고 필요할 때 출력 파일 이름을 변경할 수 있습니다.

from https://stackoverflow.com/questions/20575912/how-to-create-output-files-with-fixed-number-of-lines-in-hadoop-map-reduce by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] AWS EC2에서 루트 파티션 확장 (0)	2019.09.11
[HADOOP] 작업 시도 ID NNN의 컨테이너를 할당 해제 할 수 없습니다. (0)	2019.09.11
[HADOOP] 하둡 감속기 수 구성 옵션 우선 순위 (0)	2019.09.11
[HADOOP] HBase에서 스캔을 되돌릴 때 startKey와 stopKey는 무엇입니까? (0)	2019.09.10
[HADOOP] 환경 변수를 Hive Transform 또는 MapReduce로 전달 (0)	2019.09.10

복붙노트

[HADOOP] hadoop / map reduce에서 고정 된 수의 라인으로 출력 파일을 만드는 방법은 무엇입니까?

hadoop / map reduce에서 고정 된 수의 라인으로 출력 파일을 만드는 방법은 무엇입니까?

해결법

1.입력 파일에 990 개의 레코드가 있다고 가정하면이 레코드는 각각 100 개 레코드의 9 개 파일과 90 개 레코드의 마지막 파일로 분할되어야합니다. 총 10 개의 파일

2.다른 접근 방식은 단일 감속기를 사용하고 multipleoutputformat을 사용하여 여러 개의 출력 파일을 생성하는 것입니다. 이 감속기에서는 카운터를 가지고 필요할 때 출력 파일 이름을 변경할 수 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바