복붙노트

[HADOOP] 원사 - 클러스터 모드에서 Spark 드라이버 (및 YARN 컨테이너)에 대한 장애 조치 프로세스가 어떻게 작동하는지에 대한 리소스 / 문서

HADOOP

원사 - 클러스터 모드에서 Spark 드라이버 (및 YARN 컨테이너)에 대한 장애 조치 프로세스가 어떻게 작동하는지에 대한 리소스 / 문서

Spark Driver가 원사를위한 클러스터 모드로 배포 할 때 단일 실패 지점인지 이해하려고합니다. 그래서 저는이 문맥에서 YARN Container of the Spark Driver에 관한 장애 조치 프로세스의 내부를 더 잘 이해하고 싶습니다.

Spark Driver가 Spark Application Master에서 원사 컨테이너 내에서 작동한다는 것을 알고 있습니다. Spark Application Master는 필요한 경우 YARN Resource Manager에 자원을 요청합니다. 그러나 Spark Application Master (및 Spark 드라이버)의 YARN Container가 실패한 경우 장애 조치 프로세스에 대한 세부 정보가있는 문서를 찾을 수 없었습니다.

다음 시나리오와 관련된 몇 가지 질문에 대답 할 수있는 자세한 리소스를 찾으려고합니다. Spark Application Master / Spark Driver를 실행하는 YARN 컨테이너의 호스트 컴퓨터가 1 시간 동안 네트워크 연결을 끊은 경우 :

원사 - 클러스터 모드의 스파크 아키텍처와 페일 오버 프로세스를 자세히 살펴 보는 일부 문서 / 웹 페이지로 안내해 주시면 감사하겠습니다.

해결법

  1. ==============================

    1.우리는 방금 원숭이에서 뛰기 시작 했으므로 많이 알지 못합니다. 그러나 나는 거의 확신 할 수 없다. 우리는 운전자 수준에서 자동 페일 오버가 없다. (우리는 우리 스스로 구현했습니다.)

    우리는 방금 원숭이에서 뛰기 시작 했으므로 많이 알지 못합니다. 그러나 나는 거의 확신 할 수 없다. 우리는 운전자 수준에서 자동 페일 오버가 없다. (우리는 우리 스스로 구현했습니다.)

    드라이버에 대한 기본 장애 조치 솔루션이있을 것으로 기대하지는 않습니다. 귀하 (귀하의 운전자 작성자)는 귀하의 신청서를 건강 검진하는 방법을 아는 유일한 사람입니다. 그리고 운전 기사에 사는 국가는 자동으로 연재 될 수있는 것이 아닙니다. SparkContext가 파괴되면, 실행중인 어플리케이션 없이는 의미가 없으므로 SparkContext에서 생성 된 모든 RDD가 손실됩니다.

    우리가 구현 한 복구 전략은 매우 간단합니다. 값 비싼 불꽃 놀이가 끝난 후에 우리는 수동 검문소를 만듭니다. 우리는 RDD를 디스크에 저장하고 saveAsTextFile을 생각한 다음 즉시로드합니다. 이렇게하면 RDD의 계보가 지워 지므로 파티션을 잃어 버리면 다시 계산되지 않고 다시로드됩니다.

    우리는 또한 우리가 한 일과 파일 이름을 저장합니다. 따라서 드라이버가 다시 시작되면 중단 된 부분부터 해당 작업의 세부 사항까지 선택할 수 있습니다.

  2. from https://stackoverflow.com/questions/28009665/resources-documentation-on-how-does-the-failover-process-work-for-the-spark-driv by cc-by-sa and MIT license