[HADOOP] 주인에 의해 분리되고 제거 된 스파크 드라이버
HADOOP주인에 의해 분리되고 제거 된 스파크 드라이버
나는 두 명의 노예와 하나의 주인이 만든 클러스터를 가지고 있으며, 나는 스팍 마스터에게 항아리 (스칼라)를 제출합니다 (192.168.1.64).
spark-submit --master spark://spark-master:7077 --class tests.elements target/scala-2.10/zzz-project_2.10-1.0.jar
언젠가는 꽤 잘 실행 된 후에 터미널의 마지막 라인이 갑자기 멈추게됩니다.
...
15/08/19 17:45:24 INFO scheduler.TaskSchedulerImpl: Adding task set 411292.0 with 6 tasks
15/08/19 17:45:24 WARN scheduler.TaskSetManager: Stage 411292 contains a task of very large size (2762 KB). The maximum recommended task size is 100 KB.
15/08/19 17:45:24 INFO scheduler.TaskSetManager: Starting task 2.0 in stage 411292.0 (TID 1832, 192.168.1.64, PROCESS_LOCAL, 2828792 bytes)
15/08/19 17:45:24 INFO scheduler.TaskSetManager: Starting task 0.0 in stage 411292.0 (TID 1833, 192.168.1.62, PROCESS_LOCAL, 2310009 bytes)
15/08/19 17:45:24 INFO scheduler.TaskSetManager: Starting task 3.0 in stage 411292.0 (TID 1834, 192.168.1.64, PROCESS_LOCAL, 2669188 bytes)
15/08/19 17:45:24 INFO scheduler.TaskSetManager: Starting task 1.0 in stage 411292.0 (TID 1835, 192.168.1.62, PROCESS_LOCAL, 2295676 bytes)
15/08/19 17:45:24 INFO scheduler.TaskSetManager: Starting task 4.0 in stage 411292.0 (TID 1836, 192.168.1.64, PROCESS_LOCAL, 2847786 bytes)
15/08/19 17:45:24 INFO scheduler.TaskSetManager: Starting task 5.0 in stage 411292.0 (TID 1837, 192.168.1.64, PROCESS_LOCAL, 2913528 bytes)
Killed
마스터 로그에서 발생하는 오류는 다음과 같습니다.
...
15/08/19 16:09:49 INFO master.Master: Launching executor app-20150819160949-0001/0 on worker worker-20150819160925-192.168.1.64-51640
15/08/19 16:09:49 INFO master.Master: Launching executor app-20150819160949-0001/1 on worker worker-20150819160938-192.168.1.62-38007
15/08/19 16:15:44 INFO master.Master: akka.tcp://sparkDriver@192.168.1.64:46823 got disassociated, removing it.
15/08/19 16:15:44 INFO master.Master: Removing app app-20150819160949-0001
15/08/19 16:15:44 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkDriver@192.168.1.64:46823] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
15/08/19 16:15:44 WARN master.Master: Application testPageRank is still in progress, it may be terminated abnormally.
...
두 노동자 모두 이런 일을 자신의 기록에 남겼습니다.
...
15/08/19 16:15:49 INFO worker.Worker: Executor app-20150819160949-0001/0 finished with state EXITED message Command exited with code 1 exitStatus 1
15/08/19 16:15:50 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkExecutor@192.168.1.64:54799] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
과
...
15/08/19 16:15:43 INFO worker.Worker: Executor app-20150819160949-0001/1 finished with state EXITED message Command exited with code 1 exitStatus 1
15/08/19 16:15:43 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkExecutor@192.168.1.62:53325] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
각기. 작업 / 응용 프로그램 파일에는 다음과 같은 내용이 포함되어 있습니다.
...
15/08/19 16:15:41 INFO executor.Executor: Finished task 1.0 in stage 387758.0 (TID 1803). 1911 bytes result sent to driver
15/08/19 16:15:41 INFO executor.Executor: Finished task 4.0 in stage 387758.0 (TID 1806). 1911 bytes result sent to driver
15/08/19 16:15:41 INFO storage.BlockManager: Found block rdd_1206_5 locally
15/08/19 16:15:41 INFO executor.Executor: Finished task 5.0 in stage 387758.0 (TID 1807). 1911 bytes result sent to driver
15/08/19 16:15:41 INFO storage.BlockManager: Found block rdd_1206_3 locally
15/08/19 16:15:41 INFO executor.Executor: Finished task 3.0 in stage 387758.0 (TID 1805). 1911 bytes result sent to driver
15/08/19 16:15:44 ERROR executor.CoarseGrainedExecutorBackend: Driver 192.168.1.64:46823 disassociated! Shutting down.
15/08/19 16:15:44 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkDriver@192.168.1.64:46823] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
15/08/19 16:15:45 INFO storage.DiskBlockManager: Shutdown hook called
15/08/19 16:15:46 INFO util.Utils: Shutdown hook called
과
...
15/08/19 16:15:41 INFO storage.BlockManager: Found block rdd_1206_0 locally
15/08/19 16:15:41 INFO executor.Executor: Finished task 2.0 in stage 387758.0 (TID 1804). 1911 bytes result sent to driver
15/08/19 16:15:41 INFO executor.Executor: Finished task 0.0 in stage 387758.0 (TID 1802). 1911 bytes result sent to driver
15/08/19 16:15:42 ERROR executor.CoarseGrainedExecutorBackend: Driver 192.168.1.64:46823 disassociated! Shutting down.
15/08/19 16:15:42 INFO storage.DiskBlockManager: Shutdown hook called
15/08/19 16:15:42 WARN remote.ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkDriver@192.168.1.64:46823] has failed, address is now gated for [5000] ms. Reason is: [Disassociated].
15/08/19 16:15:42 INFO util.Utils: Shutdown hook called
각기. hdfs 또는 spark에는 다른 오류가없는 것 같습니다.
나는 그 오류가 마스터 로그에 있다고 의심하고있다. 세 번째 줄 (15/08/19 16:15:44 정보 master.Master : akka.tcp : //sparkDriver@192.168.1.64 : 46823)이 제거되어서 제거되었다. ) 그러나 나는 이유를 이해할 수 없다. 나는 spark.akka.heartbeat.interval을 100으로 변경하려고 시도했지만 몇몇 게시물에는 제안되었지만 운이 없다. 왜 그것이 일어나고 어떻게 해결할 수 있는지 누구나 알 수 있습니까? 정말 고마워.
해결법
-
==============================
1.여기에서 매우 비슷한 질문에서 언급했듯이 WARN ReliableDeliverySupervisor : 원격 시스템과의 연결에 실패했습니다. 이제 주소는 [5000] ms 동안 게이트로 제어됩니다. 이유 : [Disassociated]
여기에서 매우 비슷한 질문에서 언급했듯이 WARN ReliableDeliverySupervisor : 원격 시스템과의 연결에 실패했습니다. 이제 주소는 [5000] ms 동안 게이트로 제어됩니다. 이유 : [Disassociated]
문제는 기억이 부족한 것 같습니다. 더 많은 메모리를 추가하면 (또는 더 많은 노드가) 문제를 해결해야합니다.
(대안으로, 더 적은 메모리를 필요로 함은 물론 너무 효과적 일 것임).
from https://stackoverflow.com/questions/32099323/spark-driver-disassociated-and-removed-by-the-master by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop 2.4.0에서 MapReduce 작업을 실행할 수 없습니다. (0) | 2019.08.04 |
---|---|
[HADOOP] mapreduce 카운트 예제 (0) | 2019.08.04 |
[HADOOP] 멀티 코어 시스템에서의 Hadoop 및 map-reduce (0) | 2019.08.04 |
[HADOOP] HBase region 서버와 Hadoop 데이터 노드는 같은 시스템에 있어야합니까? (0) | 2019.08.04 |
[HADOOP] 왜 YARN Java 힙 공간 메모리 오류입니까? (0) | 2019.08.04 |