[HADOOP] 원사가 기존지도에 가져다주는 또 다른 이점은 무엇입니까?
HADOOP원사가 기존지도에 가져다주는 또 다른 이점은 무엇입니까?
원 사는 인프라 계층에서 원래 맵 축소 아키텍처와 다음과 같은 점에서 다릅니다.
YARN에서 작업 추적기는 Resource Manager 및 Node Manager (노드 특정)라는 두 개의 다른 데몬으로 분할됩니다. 리소스 관리자는 모니터링 또는 상태 업데이트에 대한 걱정없이 스케줄링 작업을 처리하는 스케줄러를 포함하는 것 외에 다른 작업에 대한 리소스 할당 만 관리합니다. 메모리, CPU 시간, 네트워크 대역폭 등과 같은 다른 리소스는 리소스 컨테이너라고하는 하나의 단위로 들어갑니다. 서로 다른 노드에서 실행중인 여러 AppMasters가 여러 리소스 컨테이너와 통신하여 노드 관리자를 모니터링 / 상태 세부 정보로 업데이트합니다.
이런 접근 방식을 사용하면 맵 감소 관점에서 성능이 어떻게 향상 될 수 있는지 알고 싶습니다. 또한, 원사의 동기에 대한 최종 내용과 Map-reduce의 기존 구현에 대한 이점이있는 경우, 동일한 점을 지적하십시오.
해결법
-
==============================
1.다음은 YARN에 대한 기사 (1, 2, 3) 중 일부입니다. 이것들은 YARN 사용의 이점에 대해 이야기합니다.
다음은 YARN에 대한 기사 (1, 2, 3) 중 일부입니다. 이것들은 YARN 사용의 이점에 대해 이야기합니다.
YARN은 MR보다 일반적이며 MR 외에도 BSP와 같은 다른 컴퓨팅 모델을 실행할 수 있어야합니다. YARN 이전에는 MR, BSP 및 기타 다른 클러스터가 필요했습니다. 이제는 단일 클러스터에서 공존 할 수 있으므로 클러스터의 사용량이 늘어납니다. 다음은 YARN에 포팅 된 일부 애플리케이션입니다.
레거시 MR의 MapReduce 관점에서 Map 및 Reduce 작업을위한 별도의 슬롯이 있지만 YARN에서는 고정 된 컨테이너 용도가 아닙니다. 동일한 컨테이너는 Map 작업, Reduce 작업, Hama BSP Task 또는 다른 작업에 사용할 수 있습니다. 이것은 더 나은 활용도로 이어집니다.
또한 동일한 클러스터에서 여러 버전의 Hadoop을 실행할 수 있습니다. 이는 레거시 MR에서는 불가능하며 유지 관리 지점에서 쉽게 수행 할 수 있습니다.
다음은 YARN에 대한 몇 가지 추가 링크입니다. 또한 Hadoop : The Definitive Guide, 3 판에는 YARN 전용 섹션이 있습니다.
참고로 YARN을 개발하는 데는 다소 논란의 여지가있었습니다. 비슷한 프레임 워크를 사용하고 버그를 다듬어서 성공적으로 실행 해 온 프레임 워크를 사용하는 대신에.
-
==============================
2.나는 Yarn이 기존의 MR 프레임 워크를 가속화 할 것이라고 생각하지 않습니다. 아키텍처를 살펴보면 시스템이 더 모듈화 된 것을 볼 수 있습니다. 그러나 모듈성은 대개 더 높은 성능과 모순됩니다. YARN은 MapReduce와 아무 관련이 없다고 주장 할 수 있습니다. MapReduce는 방금 YARN 응용 프로그램 중 하나가되었습니다. 어떤 임베디드 프로그램에서 프로그램이있는 임베디드 OS로 이동하는 것을 볼 수 있습니다 동시에 Yarn은 다른 프레임 워크를 사용하는 다양한 MR 구현에 대한 문호를 열어줍니다. 예를 들어 데이터 세트가 클러스터 메모리보다 작다고 가정하면 성능이 훨씬 향상 될 수 있습니다. 나는 http://www.spark-project.org/이 그러한 예라고 생각한다. 요약하면 : 원사는 기존 MR을 개선하지는 않지만 다른 MR 구현이 모든면에서 개선 될 수 있습니다.
나는 Yarn이 기존의 MR 프레임 워크를 가속화 할 것이라고 생각하지 않습니다. 아키텍처를 살펴보면 시스템이 더 모듈화 된 것을 볼 수 있습니다. 그러나 모듈성은 대개 더 높은 성능과 모순됩니다. YARN은 MapReduce와 아무 관련이 없다고 주장 할 수 있습니다. MapReduce는 방금 YARN 응용 프로그램 중 하나가되었습니다. 어떤 임베디드 프로그램에서 프로그램이있는 임베디드 OS로 이동하는 것을 볼 수 있습니다 동시에 Yarn은 다른 프레임 워크를 사용하는 다양한 MR 구현에 대한 문호를 열어줍니다. 예를 들어 데이터 세트가 클러스터 메모리보다 작다고 가정하면 성능이 훨씬 향상 될 수 있습니다. 나는 http://www.spark-project.org/이 그러한 예라고 생각한다. 요약하면 : 원사는 기존 MR을 개선하지는 않지만 다른 MR 구현이 모든면에서 개선 될 수 있습니다.
-
==============================
3.위의 모든 대답은 많은 정보를 다루었습니다. 다음과 같이 모든 정보를 단순화했습니다.
위의 모든 대답은 많은 정보를 다루었습니다. 다음과 같이 모든 정보를 단순화했습니다.
MapReduce: YARN: 1. It is Platform plus Application It is a Platform in Hadoop 2.0 and in Hadoop 1. 0 and it is only of doesn't exist in Hadoop 1.0 the applications in Hadoop 2.0 2. It is single use system i.e., It is multi purpose system, We can run We can run MapReduce jobs only. MapReduce, Spark, Tez, Flink, BSP, MPP, MPI, Giraph etc... (General Purpose) 3. JobTracker scalability i.e., Both Resource Management and Both Resource Management and Application Management gets separated & Job Management managed by RM+NM, Paradigm specific AMs respectively. 4. Poor Resource Management Flexible Resource Management i.e., system i.e., slots (map/reduce) containers. 5. It is not highly available High availability and reliability. 6. Scaled out up to 5000 nodes Scaled out 10000 plus nodes. 7. Job->tasks Application -> DAG of Jobs -> tasks 8. Classical MapReduce = MapReduce Yarn MapReduce = MapReduce API + API + MapReduce FrameWork MapReduce FrameWork + YARN System + MapReduce System So MR programs which were written over Hadoop 1.0 run over Yarn also with out changing a single line of code i.e., backward compatibility.
-
==============================
4.Hadoop 1.0 단점을 보도록하겠습니다. Hadoop 1.0 단점은 Hadoop 2.0에서 Yarn을 추가하여 해결되었습니다.
Hadoop 1.0 단점을 보도록하겠습니다. Hadoop 1.0 단점은 Hadoop 2.0에서 Yarn을 추가하여 해결되었습니다.
Hadoop 2.x의 YARN 아키텍처로 단일 작업 추적기 병목 현상이 제거되었습니다.
YARN의 기본 개념은 자원 관리 및 작업 스케줄링 / 모니터링 기능을 별도의 데몬으로 분리하는 것입니다. 아이디어는 전역 ResourceManager (RM) 및 응용 프로그램 당 ApplicationMaster (AM)를 갖는 것입니다. 응용 프로그램은 단일 작업이거나 작업의 DAG입니다.
ResourceManager에는 Scheduler와 ApplicationsManager의 두 가지 주요 구성 요소가 있습니다.
스케줄러는 용량, 대기열 등 익숙한 제약 조건에 따라 다양한 실행중인 응용 프로그램에 자원을 할당합니다. 스케줄러는 응용 프로그램의 상태를 모니터링하거나 추적하지 않는 순수 스케쥴러입니다.
ApplicationsManager는 작업 제출을 수락하고 응용 프로그램 특정 ApplicationMaster를 실행하기위한 첫 번째 컨테이너를 협상하고 실패시 ApplicationMaster 컨테이너를 다시 시작하는 서비스를 제공합니다.
응용 프로그램 당 ApplicationMaster는 스케줄러에서 적절한 자원 컨테이너를 협상하고 상태를 추적하며 진행 상황을 모니터링해야합니다.
이제 원사의 장점
-
==============================
5.이 링크는 http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/에서 찾을 수 있습니다.
이 링크는 http://developer.yahoo.com/blogs/hadoop/posts/2011/02/mapreduce-nextgen/에서 찾을 수 있습니다.
YARN은 좀 더 일반적인 것으로 생각됩니다. 자원 (1)에 대해 Resource Manager와 직접 협상하는 자신의 YARN 응용 프로그램을 만들 수 있으며 MapReduce는 이미 존재하는 여러 응용 프로그램 관리자 중 하나 일뿐입니다 (2).
from https://stackoverflow.com/questions/12992743/what-additional-benefit-does-yarn-bring-to-the-existing-map-reduce by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Spark에서 CSV에 쓰는 방법 (0) | 2019.06.13 |
---|---|
[HADOOP] 파일에 하이브 쿼리 출력 (0) | 2019.06.13 |
[HADOOP] Hadoop 하나의지도 및 다중 Reduce (0) | 2019.06.13 |
[HADOOP] HDFS 여유 공간 사용 가능 명령 (0) | 2019.06.13 |
[HADOOP] 종료 코드와 종료 상태가 스파크에 무엇을 의미합니까? (0) | 2019.06.13 |