복붙노트

[HADOOP] 페치 실패 횟수가 너무 많음 : 클러스터의 Hadoop (x2)

HADOOP

페치 실패 횟수가 너무 많음 : 클러스터의 Hadoop (x2)

저는 지난 1 주 정도 Hadoop을 사용해 왔습니다. (멀티 노트북 클러스터 (2 대의 컴퓨터 : 노트북 1 대와 데스크탑 1 대))를 설정하고 결과를 검색 할 수는 있었지만 항상 hadoop 작업을 실행할 때 "너무 많은 페치 실패"가 발생하는 것 같습니다.

예제 출력은 다음과 같습니다.

hadoop@ap200:/usr/local/hadoop$ bin/hadoop jar hadoop-examples-0.20.203.0.jar wordcount sita sita-output3X
11/05/20 15:02:05 INFO input.FileInputFormat: Total input paths to process : 7
11/05/20 15:02:05 INFO mapred.JobClient: Running job: job_201105201500_0001
11/05/20 15:02:06 INFO mapred.JobClient:  map 0% reduce 0%
11/05/20 15:02:23 INFO mapred.JobClient:  map 28% reduce 0%
11/05/20 15:02:26 INFO mapred.JobClient:  map 42% reduce 0%
11/05/20 15:02:29 INFO mapred.JobClient:  map 57% reduce 0%
11/05/20 15:02:32 INFO mapred.JobClient:  map 100% reduce 0%
11/05/20 15:02:41 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:02:49 INFO mapred.JobClient: Task Id :      attempt_201105201500_0001_m_000003_0, Status : FAILED
Too many fetch-failures
11/05/20 15:02:53 INFO mapred.JobClient:  map 85% reduce 9%
11/05/20 15:02:57 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:03:10 INFO mapred.JobClient: Task Id : attempt_201105201500_0001_m_000002_0, Status : FAILED
Too many fetch-failures
11/05/20 15:03:14 INFO mapred.JobClient:  map 85% reduce 9%
11/05/20 15:03:17 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:03:25 INFO mapred.JobClient: Task Id : attempt_201105201500_0001_m_000006_0, Status : FAILED
Too many fetch-failures
11/05/20 15:03:29 INFO mapred.JobClient:  map 85% reduce 9%
11/05/20 15:03:32 INFO mapred.JobClient:  map 100% reduce 9%
11/05/20 15:03:35 INFO mapred.JobClient:  map 100% reduce 28%
11/05/20 15:03:41 INFO mapred.JobClient:  map 100% reduce 100%
11/05/20 15:03:46 INFO mapred.JobClient: Job complete: job_201105201500_0001
11/05/20 15:03:46 INFO mapred.JobClient: Counters: 25
11/05/20 15:03:46 INFO mapred.JobClient:   Job Counters 
11/05/20 15:03:46 INFO mapred.JobClient:     Launched reduce tasks=1
11/05/20 15:03:46 INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=72909
11/05/20 15:03:46 INFO mapred.JobClient:     Total time spent by all reduces waiting  after reserving slots (ms)=0
11/05/20 15:03:46 INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=0
11/05/20 15:03:46 INFO mapred.JobClient:     Launched map tasks=10
11/05/20 15:03:46 INFO mapred.JobClient:     Data-local map tasks=10
11/05/20 15:03:46 INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=76116
11/05/20 15:03:46 INFO mapred.JobClient:   File Output Format Counters 
11/05/20 15:03:46 INFO mapred.JobClient:     Bytes Written=1412473
11/05/20 15:03:46 INFO mapred.JobClient:   FileSystemCounters
11/05/20 15:03:46 INFO mapred.JobClient:     FILE_BYTES_READ=4462381
11/05/20 15:03:46 INFO mapred.JobClient:     HDFS_BYTES_READ=6950740
11/05/20 15:03:46 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=7546513
11/05/20 15:03:46 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=1412473
11/05/20 15:03:46 INFO mapred.JobClient:   File Input Format Counters 
11/05/20 15:03:46 INFO mapred.JobClient:     Bytes Read=6949956
11/05/20 15:03:46 INFO mapred.JobClient:   Map-Reduce Framework
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce input groups=128510
11/05/20 15:03:46 INFO mapred.JobClient:     Map output materialized bytes=2914947
11/05/20 15:03:46 INFO mapred.JobClient:     Combine output records=201001
11/05/20 15:03:46 INFO mapred.JobClient:     Map input records=137146
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce shuffle bytes=2914947
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce output records=128510
11/05/20 15:03:46 INFO mapred.JobClient:     Spilled Records=507835
11/05/20 15:03:46 INFO mapred.JobClient:     Map output bytes=11435785
11/05/20 15:03:46 INFO mapred.JobClient:     Combine input records=1174986
11/05/20 15:03:46 INFO mapred.JobClient:     Map output records=1174986
11/05/20 15:03:46 INFO mapred.JobClient:     SPLIT_RAW_BYTES=784
11/05/20 15:03:46 INFO mapred.JobClient:     Reduce input records=201001

나는이 문제에 대해 구글을했고 아파치의 사람들은 네트워킹 문제 (또는 / etc / hosts 파일과 관련이있는 것)가 있거나 슬레이브 노드의 손상된 디스크 일 수 있다고 제안하는 것으로 보인다.

추가하려면 다음을 수행하십시오. namenode 관리자 패널 (localhost : 50070 / dfshealth)에 2 개의 "live nodes"가 표시되고 Map / reduce Admin 아래에 2 개의 노드가 표시됩니다.

이러한 오류를 피할 수있는 방법에 대한 단서가 있습니까? 미리 감사드립니다.

편집 : 1 :

tasktracker 로그는 다음 위치에 있습니다. http://pastebin.com/XMkNBJTh 데이터 노드 로그는 다음 위치에 있습니다. http://pastebin.com/ttjR7AYZ

많은 감사합니다.

해결법

  1. ==============================

    1.데이터 노드 노드 / etc / hosts 파일을 수정하십시오.

    데이터 노드 노드 / etc / hosts 파일을 수정하십시오.

    각 라인은 세 부분으로 나뉩니다. 첫 번째 부분은 네트워크 IP 주소, 두 번째 부분은 호스트 이름 또는 도메인 이름, 세 번째 부분은 호스트 별칭입니다. 자세한 단계는 다음과 같습니다.

    IP 주소가 구성되고 성공적으로 수정되었거나 호스트 이름이 표시되면 문제가있는 경우 hosts 파일을 계속 수정하십시오.

  2. ==============================

    2.솔루션을 따라하면 확실히 작동합니다.

    솔루션을 따라하면 확실히 작동합니다.

    1.IP 127.0.0.1 및 127.0.1.1을 사용하여 메모 또는 주석 행을 삭제하십시오.

    호스트 파일에서 노드를 참조하기위한 별명이 아닌 호스트 이름과 hadoop 디렉토리에있는 마스터 / 슬레이브 파일

      -->in Host file 172.21.3.67 master-ubuntu
    
      -->in master/slave file master-ubuntu
    

    3. namenode의 NameSpaceId = 데이터 노드의 NameSpaceId를 참조하십시오.

  3. ==============================

    3."너무 많은 페치 실패"와 같은 Hadoop 성능 저하 (간단한 단어 카운트 예제는 강력한 서버의 2 노드 클러스터에서 실행될 때 20 분 이상 소요됨)와 같은 문제가있었습니다. 나는 또한 "WARN mapred.JobClient : 작업 outputConnection 거부 오류 읽기"오류가 발생했습니다.

    "너무 많은 페치 실패"와 같은 Hadoop 성능 저하 (간단한 단어 카운트 예제는 강력한 서버의 2 노드 클러스터에서 실행될 때 20 분 이상 소요됨)와 같은 문제가있었습니다. 나는 또한 "WARN mapred.JobClient : 작업 outputConnection 거부 오류 읽기"오류가 발생했습니다.

    Thomas Jungblut의 지시를 따라 문제가 해결되었습니다. 슬레이브 구성 파일에서 마스터 노드를 제거했습니다. 이 후 오류는 사라지고 단어 수는 1 분 밖에 걸리지 않았습니다.

  4. from https://stackoverflow.com/questions/6073325/too-many-fetch-failures-hadoop-on-cluster-x2 by cc-by-sa and MIT license