[HADOOP] yarn hadoop 2.4.0 : 정보 메시지 : ipc.Client Retrying connect to server
HADOOPyarn hadoop 2.4.0 : 정보 메시지 : ipc.Client Retrying connect to server
해결책을 찾기 위해 이틀 동안 검색했습니다. 그러나 아무것도 효과가 없었습니다.
먼저, 전체 hadoop / yarn / hdfs 주제에 익숙하지 않고 작은 클러스터를 구성하려고합니다.
mapreduce-examples.jar에서 예제를 실행할 때마다 위의 메시지가 표시되지 않습니다 때로는 teragen이 작동하지만 때로는 그렇지 않습니다. 어떤 경우에는 전체 작업이 실패하고 다른 경우에는 작업이 성공적으로 완료됩니다. 때때로 위의 메시지를 인쇄하지 않고 작업이 실패합니다.
14/06/08 15:42:46 INFO ipc.Client: Retrying connect to server: FQDN-HOSTNAME/XXX.XX.XX.XXX:53022. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=3, sleepTime=1000 MILLISECONDS)
이 메시지는 30 번 인쇄됩니다. 또한 포트 (코드 예제 : 53022)는 작업이 시작될 때마다 변경됩니다. 작업이 성공적으로 완료되면 인쇄됩니다
14/06/08 15:34:20 INFO mapred.ClientServiceDelegate: Application state is completed. FinalApplicationStatus=SUCCEEDED. Redirecting to job history server
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 running in uber mode : false
14/06/08 15:34:20 INFO mapreduce.Job: map 100% reduce 100%
14/06/08 15:34:20 INFO mapreduce.Job: Job job_1402234146062_0002 completed successfully
실패하면 이것이 표시됩니다.
INFO mapreduce.Job: Job job_1402234146062_0005 failed with state FAILED due to: Task failed task_1402234146062_0005_m_000002
Job failed as tasks failed. failedMaps:1 failedReduces:0
이 경우 일부 작업이 실패했습니다. 그러나 nodemanager, datanode, resourcemanager의 로그 파일에서 ...은 찾을 이유가 없습니다.
INFO mapreduce.Job: Task Id : attempt_1402234146062_0006_m_000002_1, Status : FAILED
내 구성에 대한 추가 정보 : 사용 된 OS : centOS 6.5 Java 버전 : OpenJDK 런타임 환경 (rhel-2.4.7.1.el6_5-x86_64 u55-b13) OpenJDK 64 비트 서버 VM (빌드 24.51-b03, 혼합 모드)
yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.address</name>
<value>FQDN-HOSTNAME:8050</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.localizer.address</name>
<value>FQDN-HOSTNAME:8040</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>FQDN-HOSTNAME:8025</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>FQDN-HOSTNAME:8030</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>FQDN-HOSTNAME:8032</value>
</property>
</configuration>
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.permissions </name>
<value>false </value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///var/data/hadoop/hdfs/nn</value>
</property>
<property>
<name>fs.checkpoint.dir</name>
<value>file:///var/data/hadoop/hdfs/snn</value>
</property>
<property>
<name>fs.checkpoint.edits.dir</name>
<value>file:///var/data/hadoop/hdfs/snn</value>
<name>fs.checkpoint.edits.dir</name>
<value>file:///var/data/hadoop/hdfs/snn</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///var/data/hadoop/hdfs/dn</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.cluster.temp.dir</name>
<value>/mapred/tempDir</value>
</property>
<property>
<name>mapreduce.cluster.local.dir</name>
<value>/mapred/localDir</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>FQDN-HOSTNAME:10020</value>
</property>
</configuration>
누군가 나를 도울 수 있기를 바랍니다. :) 고맙습니다, 노르만 인
해결법
-
==============================
1.하나의 리듀서가 있고 우연히 감소 된 태스크가 작업 노드 관리자에게 전송되면 성공적인 작업이되기 때문에 때때로 작업이 성공적으로 완료됩니다.
하나의 리듀서가 있고 우연히 감소 된 태스크가 작업 노드 관리자에게 전송되면 성공적인 작업이되기 때문에 때때로 작업이 성공적으로 완료됩니다.
FQDN-HOSTNAME이 슬레이브 파일에서 정확히 동일한 방식으로 작성되었는지 확인해야합니다. 올바르게 기억한다면 내 솔루션은 / etc / hosts에서 호스트 이름 매핑 항목을 제거하여 다음과 같이 주석 처리하는 것이 었습니다.
#127.0.0.1 FQDN-HOSTNAME
-
==============================
2.이에 대한 또 다른 해결책은 모든 노드에서 방화벽을 확인하는 것입니다. iptables를 다루는 경우 모든 노드에서 이것을 실행할 수 있습니다.
이에 대한 또 다른 해결책은 모든 노드에서 방화벽을 확인하는 것입니다. iptables를 다루는 경우 모든 노드에서 이것을 실행할 수 있습니다.
# /etc/init.d/iptables save # /etc/init.d/iptables stop
다음에 다시 시작할 때까지 방화벽이 중지되지만 클러스터를 테스트하기에 충분해야합니다. 원사 등을 다시 시작할 필요가 없으며 작업을 다시 실행하십시오.
FW를 완전히 중지하려면 다음을 수행하십시오.
# chkconfig iptables off
-
==============================
3.와우! 이 답변은 실제입니까? 방화벽이 비활성화되어있는 한 작업이 명확하게 완료 될 때 FQDN에 대해 이야기 하시겠습니까? 그리고 OP는 자세한 로그 메시지 / 구성을 넣었습니다.
와우! 이 답변은 실제입니까? 방화벽이 비활성화되어있는 한 작업이 명확하게 완료 될 때 FQDN에 대해 이야기 하시겠습니까? 그리고 OP는 자세한 로그 메시지 / 구성을 넣었습니다.
씨몬들-RTFQ. 문제는 yarn.app.mapreduce.am.job.client.port-range가 존중되지 않는다는 것입니다. 나는 또한 그것에 뛰어 들고있다.
방화벽 끄기 ... 모두 잘 작동합니다 (원사 작업에서 임시 포트를 볼 수 있습니다).
방화벽 켜기 ... 모든 시간이 초과됩니다 (결국).
Horton은 다른 게시판에서이 질문을 완전히 무시합니다.
다음은 문제를 보여주는 작업의 로그 출력입니다. 첫 번째 경우, Horton의 문서를 기반으로 클라이언트에서 방화벽을 사용하도록 설정했습니다 (설치를 매우 자세히 살펴본 다른 포트와 함께). 프로세스가 시간 초과되고 갑자기 작동하는 것을 볼 수 있습니다. 작업 출력을 본 후 방화벽을 비활성화했기 때문에 :)
2015-01-15 16 : 48 : 22,943 정보 [main] org.apache.hadoop.ipc.Client : 서버에 다시 연결 시도 중 : de-luster-l2723nraqsy5-ywhniidze3lb-qfk4asn77vc5 / 10.0.0.41 : 52015. 이미 39 번 시도했습니다. 재시도 정책은 RetryUpToMaximumCountWithFixedSleep (maxRetries = 50, sleepTime = 1000 MILLISECONDS)입니다. 2015-01-15 16 : 48 : 23,349 정보 [main] org.apache.hadoop.mapred.YarnChild : 자녀의 mapreduce.cluster.local.dir : /hadoop/yarn/local/usercache/l.admin/appcache/application_1420482341308_0020 2015-01-15 16 : 48 : 24,122 정보 [main] org.apache.hadoop.conf.Configuration.deprecation : session.id는 더 이상 사용되지 않습니다. 대신 dfs.metrics.session-id를 사용하십시오. 2015-01-15 16 : 48 : 24,656 정보 [main] org.apache.hadoop.mapred. 작업 : ResourceCalculatorProcessTree 사용 : [] 2015-01-15 16 : 48 : 24,724 정보 [main] org.apache.hadoop.mapred.ReduceTask : ShuffleConsumerPlugin 사용 : org.apache.hadoop.mapreduce.task.reduce.Shuffle@7f94ee59 2015-01-15 16 : 48 : 24,792 정보 [main] org.apache.hadoop.mapreduce.task.reduce.MergeManagerImpl : MergerManager : memoryLimit = 534354336, maxSingleShuffleLimit = 133588584, mergeThreshold = 352673888, ioSortFactor = 100, memToMemMergeOutputsThreshold
나중에 봤어 ?? 시간 초과 문제 ... 그러면 갑자기 셔플이 시작됩니다. 결국 FQDN과는 아무런 관련이 없습니다 :)
그러나 해결책을 찾아 다시 게시하겠습니다.
-
==============================
4.확실히 버그,이 게시물은 무슨 일이 일어나고 있는지에 대한 명확한 통찰력을 제공합니다. https://groups.google.com/a/cloudera.org/forum/#!msg/cdh-user/P1rfMQmYVWk/eARZXHUTkW0J
확실히 버그,이 게시물은 무슨 일이 일어나고 있는지에 대한 명확한 통찰력을 제공합니다. https://groups.google.com/a/cloudera.org/forum/#!msg/cdh-user/P1rfMQmYVWk/eARZXHUTkW0J
우리는 임시 포트 범위를 줄여서 잡는 포트를 제한 한 다음 해당 포트 범위를 허용하도록 iptables를 구성하여이 문제를 해결할 계획입니다. 포트 범위 설정은 여기에 설명되어 있습니다- http://www.ncftp.com/ncftpd/doc/misc/ephemeral_ports.html
-
==============================
5.MR AppMaster가 임시 포트로 시작하는 방식의 버그입니다. Hadoop 2.6.0 릴리스 버전에도 있습니다. 이 버그에 대한 수정을 알아 내고 MAPREDUCE 프로젝트에서 JIRA를 수정하는 방법에 대한 설명과 함께 만들었습니다.
MR AppMaster가 임시 포트로 시작하는 방식의 버그입니다. Hadoop 2.6.0 릴리스 버전에도 있습니다. 이 버그에 대한 수정을 알아 내고 MAPREDUCE 프로젝트에서 JIRA를 수정하는 방법에 대한 설명과 함께 만들었습니다.
https://issues.apache.org/jira/browse/MAPREDUCE-6338
from https://stackoverflow.com/questions/24107091/yarn-hadoop-2-4-0-info-message-ipc-client-retrying-connect-to-server by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 스트리밍 하둡 전역 변수 (0) | 2019.09.09 |
---|---|
[HADOOP] HDFS를 사용하지 않는 경우 데이터 지역 (0) | 2019.09.09 |
[HADOOP] 여러 레코드를 포함하는 삽입 문을 작성하는 Sqoop (0) | 2019.09.08 |
[HADOOP] 컨테이너 내부에서 YARN ContainerId를 어떻게 얻습니까? (0) | 2019.09.08 |
[HADOOP] Java 내부의 Hbase CopyTable (0) | 2019.09.08 |