복붙노트

[HADOOP] hadoop에서 병렬로 작업 실행

HADOOP

hadoop에서 병렬로 작업 실행

나는 새삼 스럽다.

2 노드 클러스터를 설정했습니다.

hadoop에서 병렬로 2 개의 작업을 실행하는 법.

내가 작업을 제출하면 FIFO 순서로 하나씩 실행됩니다. 나는 그 일을 평행하게해야한다. 그것을 습득하는 방법.

감사 MRK

해결법

  1. ==============================

    1.Hadoop은 여러 스케줄러로 구성 할 수 있으며 기본값은 FIFO 스케줄러입니다.

    Hadoop은 여러 스케줄러로 구성 할 수 있으며 기본값은 FIFO 스케줄러입니다.

    FIFO 스케줄은 다음과 같이 동작합니다.

    시나리오 1 : 클러스터에 10 개의 맵 태스크 용량이 있고 작업 1에 15 맵 태스크가 필요한 경우 job1을 실행하면 전체 클러스터를 사용합니다. job1이 진행되고 job1이 사용하지 않는 사용 가능한 슬롯이 있으면 job2가 클러스터에서 실행됩니다.

    시나리오 2 : 클러스터에 맵 태스크 용량이 10이고 작업 1에 맵 태스크가 필요한 경우 job1은 6 슬롯을 취하고 job2는 4 슬롯을 차지합니다. job1과 job2가 병렬로 실행됩니다.

    시작부터 병렬로 작업을 실행하려면 요구 사항에 따라 공정 스케줄러 또는 용량 스케줄러를 구성 할 수 있습니다. mapreduce.jobtracker.taskscheduler와 특정 스케줄러 매개 변수는 mapred-site.xml에서이 설정을 적용하기 위해 설정해야합니다.

    편집 : MRK의 의견에 따라 답변이 업데이트되었습니다.

  2. ==============================

    2."작업 용량 매핑"및 "작업 용량 줄이기"가 있습니다. 무료 일 때마다 그들은 FIFO 순서로 작업을 선택합니다. 제출 된 작업에는 매퍼와 선택적으로 감속기가 포함됩니다. 작업 맵퍼 (및 / 또는 감속기) 수가 클러스터의 용량보다 작 으면 다음 작업 매퍼 (및 / 또는 감속기)를 사용합니다.

    "작업 용량 매핑"및 "작업 용량 줄이기"가 있습니다. 무료 일 때마다 그들은 FIFO 순서로 작업을 선택합니다. 제출 된 작업에는 매퍼와 선택적으로 감속기가 포함됩니다. 작업 맵퍼 (및 / 또는 감속기) 수가 클러스터의 용량보다 작 으면 다음 작업 매퍼 (및 / 또는 감속기)를 사용합니다.

    FIFO가 마음에 들지 않으면 제출 된 작업에 항상 우선 순위를 부여 할 수 있습니다.

    편집하다:

    약간의 잘못된 정보에 대해 죄송합니다. Praveen의 대답은 올바른 것입니다. 그의 답변 외에도 HOD 스케줄러를 확인할 수 있습니다.

  3. ==============================

    3.기본 스케줄러를 사용하면 한 번에 사용자 당 하나의 작업 만 수행 할 수 있습니다. 다른 사용자 ID에서 다른 작업을 시작할 수 있습니다. 물론 병렬로 실행될 것입니다. 다른 사람들이 언급했듯이 충분한 슬롯 용량이 필요합니다.

    기본 스케줄러를 사용하면 한 번에 사용자 당 하나의 작업 만 수행 할 수 있습니다. 다른 사용자 ID에서 다른 작업을 시작할 수 있습니다. 물론 병렬로 실행될 것입니다. 다른 사람들이 언급했듯이 충분한 슬롯 용량이 필요합니다.

  4. from https://stackoverflow.com/questions/7483624/running-jobs-parallely-in-hadoop by cc-by-sa and MIT license