평균을 찾기 위해지도 / 직무 작업 작성에 도움이 필요합니다

저는 하둡 맵 / 리 듀스를 처음 접했습니다. 아래와 같이 입력 텍스트 파일이 주어지면 n 프로세스가 걸리는 평균 시간을 찾기 위해 Map / Reduce 작업을 작성하려고합니다.

ProcessName Time
process1    10
process2    20
processn    30

몇 가지 자습서를 겪었지만 여전히 철저한 이해가 불가능합니다. 이 문제에 대해 매퍼 및 리듀서 클래스는 어떻게해야합니까? 내 출력이 항상 텍스트 파일입니까 아니면 평균을 일종의 변수에 직접 저장할 수 있습니까?

감사.

해결법

==============================
1.매퍼는 텍스트 파일을 읽고 모든 줄에 다음과 같은 맵 기능을 적용합니다

매퍼는 텍스트 파일을 읽고 모든 줄에 다음과 같은 맵 기능을 적용합니다
```
map: (key, value)
  time = value[2]
  emit("1", time)
```
모든 맵 호출은 하나의 단일 감소 기능으로 처리되는 키 "1"을 방출합니다.
```
reduce: (key, values)
  result = sum(values) / n
  emit("1", result)
```
Hadoop을 사용하고 있기 때문에 map 함수에서 StringTokenizer를 사용하는 것을 보았을 것입니다.이 기능을 사용하면 한 줄로 시간 만 얻을 수 있습니다. 또한 n (프로세스 수)을 계산하는 방법을 생각할 수 있습니다. 예를 들어 줄을 계산하는 다른 작업의 카운터를 사용할 수 있습니다.

최신 정보 이 작업을 실행하려면 각 회선마다 튜플을 감속기로 보내야하므로 여러 시스템에서 Hadoop 클러스터를 실행하면 네트워크가 막힐 수 있습니다. 보다 영리한 접근 방식은 입력에 더 가까운 시간의 합계를 계산할 수 있습니다. 결합기를 지정하여 :
```
combine: (key, values)
  emit(key, sum(values))
```
그런 다음이 컴 바이 너는 동일한 시스템의 모든 맵 기능의 결과 (즉, 네트워크 간 네트워킹없이)에서 실행됩니다. 그러면 리듀서는 로그 파일의 행 수가 아니라 클러스터에 기계가있는 수만큼의 튜플을 가져옵니다.
==============================
2.매퍼는 입력을 평균을 구하려는 값으로 매핑합니다. 입력 내용이 다음과 같은 형식의 텍스트 파일이라고 가정 해 봅시다.

매퍼는 입력을 평균을 구하려는 값으로 매핑합니다. 입력 내용이 다음과 같은 형식의 텍스트 파일이라고 가정 해 봅시다.
```
ProcessName Time
process1    10
process2    20
.
.
.
```
그런 다음 파일의 각 줄을 가져 와서 나누고 두 번째 열을 잡고 해당 열의 값을 IntWritable (또는 다른 쓰기 가능한 숫자 형식)로 출력해야합니다. 프로세스 이름 또는 다른 항목으로 그룹화되지 않은 모든 시간의 평균을 원하므로 단일 고정 키가 있습니다. 따라서 매퍼는 다음과 같이 보입니다.
```
private IntWritable one = new IntWritable(1);
private IntWritable output = new IntWritable();
proctected void map(LongWritable key, Text value, Context context) {
    String[] fields = value.split("\t");
    output.set(Integer.parseInt(fields[1]));
    context.write(one, output);
}
```
감속기는 이러한 값을 가져 와서 평균을 간단히 계산합니다. 이것은 다음과 같이 보일 것입니다
```
IntWritable one = new IntWritable(1);
DoubleWritable average = new DoubleWritable();
protected void reduce(IntWritable key, Iterable<IntWrtiable> values, Context context) {
    int sum = 0;
    int count = 0;
    for(IntWritable value : values) {
        sum += value.get();
        count++;
    }
    average.set(sum / (double) count);
    context.Write(key, average);
}
```
여기에서는 입력 형식과 그렇지 않은 것에 대해 많은 가정을하고 있지만 합리적인 가정이므로 정확한 요구에 맞게 조정할 수 있어야합니다.

여기 몇 가지 옵션이 있습니다. 예를 들어 작업의 출력을 후 처리 (단일 파일로 작성)하거나 단일 값을 계산하므로 결과를 카운터에 저장할 수 있습니다.

from https://stackoverflow.com/questions/18062476/need-help-in-writing-map-reduce-job-to-find-average by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 다른 하이브 스크립트에서 하이브 스크립트를 실행할 수 있습니까? (0)	2019.09.10
[HADOOP] 집계를 사용하여 Hive에서 데이터를 피벗하는 방법 (0)	2019.09.10
[HADOOP] Sqoop 가져 오기 실패, UnsupportedClassVersionError (0)	2019.09.10
[HADOOP] HDFS에서 데이터 읽기-프로그램이 경로를 찾을 수 없습니다 (0)	2019.09.10
[HADOOP] Hive에서 아이슬란드 어 가시 문자를 구분 기호로 사용 (0)	2019.09.10

복붙노트

[HADOOP] 평균을 찾기 위해지도 / 직무 작업 작성에 도움이 필요합니다

평균을 찾기 위해지도 / 직무 작업 작성에 도움이 필요합니다

해결법

1.매퍼는 텍스트 파일을 읽고 모든 줄에 다음과 같은 맵 기능을 적용합니다

2.매퍼는 입력을 평균을 구하려는 값으로 매핑합니다. 입력 내용이 다음과 같은 형식의 텍스트 파일이라고 가정 해 봅시다.

'HADOOP' 카테고리의 다른 글

티스토리툴바