복붙노트

[HADOOP] Hadoop gen1 대 Hadoop gen2

HADOOP

Hadoop gen1 대 Hadoop gen2

Hadoop-2.x에서 tasktracker의 위치에 대해 다소 혼란 스럽습니다.

Hadoop-1.x의 데몬은 namenode, datanode, jobtracker, taskracker 및 secondarynamenode입니다.

Hadoop-2.x의 데몬은 namenode, datanode, resourcemanager, applicationmaster, secondarynamenode입니다.

즉, Jobtracker가 resourcemanager와 applicationmaster로 나뉜 것을 의미합니다.

그렇다면 tasktracker는 어디에 있습니까?

해결법

  1. ==============================

    1.YARN (Hadoop 2의 새로운 실행 프레임 워크)에서 MapReduce는 이전과 같은 방식으로 존재하지 않습니다.

    YARN (Hadoop 2의 새로운 실행 프레임 워크)에서 MapReduce는 이전과 같은 방식으로 존재하지 않습니다.

    YARN은 클러스터에 자원을 할당하는 좀 더 일반적인 목적의 방법입니다. ResourceManager, ApplicationMaster 및 NodeManager는 새로운 YARN 실행 프레임 워크로 구성됩니다. NodeManager는 모든 노드의 데몬이므로 TaskTracker를 대신 할 수 있다고 말할 수 있습니다. 그러나 이제는 단지 작업을 매핑하는 대신 프로세스를 제공하고 작업을 줄입니다.

    MapReduce는 여전히 있지만 YARN의 "응용 프로그램"입니다.

    다음은 YARN에 대한 소개입니다. 자세한 내용은 http://hortonworks.com/blog/introducing-apache-hadoop-yarn/에서 확인할 수 있습니다.

  2. ==============================

    2.예 Jobtracker는 리소스 관리자와 응용 프로그램 마스터로 나뉘 었습니다. 응용 프로그램 마스터는 제출 된 작업 수를 기반으로 하나 또는 모든 노드 관리자 인스턴스에서 실행됩니다. 따라서 작업이 제출되면 리소스 관리자는 무료 노드 관리자 중 한 명과 대화하여 응용 프로그램 마스터로 작동하고 응용 프로그램 마스터는 작업 추적자가되고 다른 노드 관리자는 작업자 추적기가되어 원사를 실행합니다. 틀 렸으면 말해줘.

    예 Jobtracker는 리소스 관리자와 응용 프로그램 마스터로 나뉘 었습니다. 응용 프로그램 마스터는 제출 된 작업 수를 기반으로 하나 또는 모든 노드 관리자 인스턴스에서 실행됩니다. 따라서 작업이 제출되면 리소스 관리자는 무료 노드 관리자 중 한 명과 대화하여 응용 프로그램 마스터로 작동하고 응용 프로그램 마스터는 작업 추적자가되고 다른 노드 관리자는 작업자 추적기가되어 원사를 실행합니다. 틀 렸으면 말해줘.

  3. ==============================

    3.위 링크를 읽은 후 얻는 것은

    위 링크를 읽은 후 얻는 것은

    YARN은 Job Traker의 기능을 분할하여 고전적인 MR의 단점을 처리합니다.

  4. ==============================

    4.작업 추적기는 Hadoop YARN 아키텍처의 세 가지 구성 요소 인 리소스 관리자, 응용 프로그램 관리자 및 응용 프로그램 마스터로 나뉩니다.

    작업 추적기는 Hadoop YARN 아키텍처의 세 가지 구성 요소 인 리소스 관리자, 응용 프로그램 관리자 및 응용 프로그램 마스터로 나뉩니다.

    YARN의 기본 개념은 자원 관리 및 작업 스케줄링 / 모니터링 기능을 별도의 데몬으로 분리하는 것입니다. 아이디어는 전역 ResourceManager (RM) 및 응용 프로그램 당 ApplicationMaster (AM)를 갖는 것입니다. 응용 프로그램은 단일 작업이거나 작업의 DAG입니다.

    ResourceManager에는 Scheduler와 ApplicationsManager의 두 가지 주요 구성 요소가 있습니다.

    스케줄러는 용량, 대기열 등 익숙한 제약 조건에 따라 다양한 실행중인 응용 프로그램에 자원을 할당합니다. 스케줄러는 응용 프로그램의 상태를 모니터링하거나 추적하지 않는 순수 스케쥴러입니다.

    ApplicationsManager는 작업 제출을 수락하고 응용 프로그램 특정 ApplicationMaster를 실행하기위한 첫 번째 컨테이너를 협상하고 실패시 ApplicationMaster 컨테이너를 다시 시작하는 서비스를 제공합니다.

    응용 프로그램 당 ApplicationMaster는 스케줄러에서 적절한 자원 컨테이너를 협상하고 상태를 추적하며 진행 상황을 모니터링해야합니다.

    문서 링크를 살펴보십시오.

    자세한 내용은이 SE 질문을보십시오.

    원사가 기존지도에 가져다주는 또 다른 이점은 무엇입니까?

  5. ==============================

    5.예 Jobtracker는 리소스 관리자와 응용 프로그램 마스터로 나뉘 었습니다. 응용 프로그램 마스터는 제출 된 작업 수를 기반으로 하나 또는 모든 노드 관리자 인스턴스에서 실행됩니다. 따라서 작업이 제출되면 리소스 관리자는 무료 노드 관리자 중 한 명과 대화하여 응용 프로그램 마스터로 작동하고 응용 프로그램 마스터는 작업 추적자가되고 다른 노드 관리자는 작업자 추적기가되어 원사를 실행합니다. 여기에서 세부 정보 찾기 : http://ercoppa.github.io/HadoopInternals/HadoopArchitectureOverview.html

    예 Jobtracker는 리소스 관리자와 응용 프로그램 마스터로 나뉘 었습니다. 응용 프로그램 마스터는 제출 된 작업 수를 기반으로 하나 또는 모든 노드 관리자 인스턴스에서 실행됩니다. 따라서 작업이 제출되면 리소스 관리자는 무료 노드 관리자 중 한 명과 대화하여 응용 프로그램 마스터로 작동하고 응용 프로그램 마스터는 작업 추적자가되고 다른 노드 관리자는 작업자 추적기가되어 원사를 실행합니다. 여기에서 세부 정보 찾기 : http://ercoppa.github.io/HadoopInternals/HadoopArchitectureOverview.html

  6. ==============================

    6.목적, 데이터 노드, resourcemanager, applicationmaster

    목적, 데이터 노드, resourcemanager, applicationmaster

    NodeManager 인 Hadoop-2.x에서 다른 데몬을 놓쳤습니다. 이 데몬은 tasktracker와 같은 개별 노드에서 실행됩니다. 시작시이 구성 요소는 RM에 등록하고 노드에서 사용 가능한 자원에 대한 정보를 보냅니다. 후속 NM-RM 통신은 컨테이너 상태 (노드에서 실행중인 새 컨테이너, 완성 된 컨테이너 등)에 대한 업데이트를 제공하는 것입니다.

    여기서 일어나는 일이 있습니다. RM은 작업에 자원을 할당합니다. 할당 된 노드 중 하나는 applicationmaster와 같은 역할을하며 다른 노드와 통신합니다. 간단한 용어로 이제 응용 프로그램 마스터는 jobtracker이고 나머지는 모두 작업 추적자 노드입니다. RM은 다른 사용자에게 더 많은 작업을 무료로 제공합니다. 이제 MR v2의 아름다움은 여러 MR 작업과 동일한 클러스터의 Spark 작업과 같은 다른 응용 프로그램을 실행할 수 있다는 것입니다. ResourceManage는 클러스터를 관리하고 작업에 대한 리소스 또는 노드를 할당하고 할당 된 노드 중 하나가 응용 프로그램 마스터가됩니다.

    샤 자드

  7. ==============================

    7.아래의 비교를 기억하십시오. 작업 추적기 = 자원 관리자 (응용 프로그램 관리자, 컨테이너 0) + 스케줄러 (FIFO, 공정한 스케줄러 및 용량 스케줄러)

    아래의 비교를 기억하십시오. 작업 추적기 = 자원 관리자 (응용 프로그램 관리자, 컨테이너 0) + 스케줄러 (FIFO, 공정한 스케줄러 및 용량 스케줄러)

    Tasktracker = 노드 관리자

    처음에 HDPv1에서 작업을 제출할 때 1. 작업 추적기는 작업에 대한 매퍼와 감속기를 계산하고, 죽은 / 라이브 작업 추적기를 모니터링하고, 실패한 경우 매퍼와 감속기를 다시 재현 할 책임이 있습니다.

    이제 HDPv2에서 우리가 일자리를 제출하면

    자원 관리자 java 프로세스 (스케줄러와 동일한 자바 프로세스)는 먼저 모든 노드 (컨테이너 0)에서 응용 프로그램 관리자를 생성 한 다음 응용 프로그램 관리자가 작업 코드를 읽고 해당 작업에 필요한 자원을 계산하고 스케줄러에서 자원을 요청합니다 작업 대기열의 자원 수를 모니터합니다). 스케줄러가 계산하고 노드 이름을 컨테이너로 생성 할 수있는 AM으로 지정합니다. 그런 다음 AM은 해당 노드에서 컨테이너를 생성하고 모니터합니다. 어떤 컨테이너가 죽을 경우 다시 스케줄러로 가서 더 많은 리소스를 얻기 위해 협상하는 AM입니다. 따라서 jobtracker의 작업은 AM과 YARN의 스케줄러로 나누어집니다. 또한 제출 된 각 작업은 새 AM을 가지므로 복수 AM이 실행될 수 있지만 클러스터에 하나의 스케줄러 만있을 수 있습니다. AM은 노드 관리자에서 생성되고 스케줄러는 RM 노드에서 시작됩니다.

  8. ==============================

    8.Hadoop V2에서는 YARN 프레임 워크를 사용하여 이전 버전을 대체합니다. YARN에는 자원을 관리하고 자원을 응용 프로그램에 할당하는 중앙 자원 관리자 구성 요소가 있습니다. 여러 애플리케이션을 YARN을 통해 Hadoop에서 실행할 수 있으며 모든 애플리케이션이 공통 리소스 관리를 공유 할 수 있습니다.

    Hadoop V2에서는 YARN 프레임 워크를 사용하여 이전 버전을 대체합니다. YARN에는 자원을 관리하고 자원을 응용 프로그램에 할당하는 중앙 자원 관리자 구성 요소가 있습니다. 여러 애플리케이션을 YARN을 통해 Hadoop에서 실행할 수 있으며 모든 애플리케이션이 공통 리소스 관리를 공유 할 수 있습니다.

    http://saphanatutorial.com/how-yarn-overcomes-mapreduce-limitations-in-hadoop-2-0/

  9. ==============================

    9.

             Hadoop 1                                      Hadoop 2
    1,it is mapreduce1                                  1,it is yarn mapreduce
    2, here it has job tracker,                         2,here it has resource manager  
    task tracker                                        ,node manager
    3,it can send another task tracker                  3,it can send resource manager
                                                         ,timeline server  which  
                                                             stores applicationhistory                                                                                              
    
  10. from https://stackoverflow.com/questions/21278619/hadoop-gen1-vs-hadoop-gen2 by cc-by-sa and MIT license