MapReduce 대안

MapReduce (Google, Hadoop)에 대한 대안 패러다임이 있습니까? 큰 문제를 어떻게 분할하고 병합하는 다른 합리적인 방법이 있습니까?

해결법

==============================
1.확실히. 예를 들어, Bulk Synchronous Parallel을 확인하십시오. Map / Reduce는 사실 제한된 문제를 줄이는 방법이지만 Hadoop과 같은 프레임 워크에서는 이러한 제한으로 인해 관리가 가능합니다. 문제는 문제를 Map / Reduce 설정으로 누르는 것이 어렵거나 도메인 별 병렬화 체계를 쉽게 만들고 모든 구현 세부 사항을 직접 처리해야하는 경우에 있습니다. 돼지는 실제로지도가 아닌 Reduce-y에서 Map-Reduce와 호환되는 많은 표준 문제 변환을 자동화하는 Hadoop 위에있는 추상화 계층에 불과합니다.

확실히. 예를 들어, Bulk Synchronous Parallel을 확인하십시오. Map / Reduce는 사실 제한된 문제를 줄이는 방법이지만 Hadoop과 같은 프레임 워크에서는 이러한 제한으로 인해 관리가 가능합니다. 문제는 문제를 Map / Reduce 설정으로 누르는 것이 어렵거나 도메인 별 병렬화 체계를 쉽게 만들고 모든 구현 세부 사항을 직접 처리해야하는 경우에 있습니다. 돼지는 실제로지도가 아닌 Reduce-y에서 Map-Reduce와 호환되는 많은 표준 문제 변환을 자동화하는 Hadoop 위에있는 추상화 계층에 불과합니다.

편집 26.1.13 : 여기에서 멋진 최신 개요를 발견했습니다.
==============================
2.Phil Colella는 프로세싱 노드 간의 데이터 분산 및 수집 패턴을 기반으로 과학 계산을위한 7 가지 수치 방법을 확인하고이를 '왜성 (dwarfs)'이라고 명명했습니다. 이것들은 다른 사람들에 의해 추가되었으며, 목록은 Dwarf Mine에서 이용 가능합니다 :

Phil Colella는 프로세싱 노드 간의 데이터 분산 및 수집 패턴을 기반으로 과학 계산을위한 7 가지 수치 방법을 확인하고이를 '왜성 (dwarfs)'이라고 명명했습니다. 이것들은 다른 사람들에 의해 추가되었으며, 목록은 Dwarf Mine에서 이용 가능합니다 :
==============================
3.업데이트 (2014 년 8 월) : Stratosphere는 이제 Apache Flink (잠복기)라고합니다.

업데이트 (2014 년 8 월) : Stratosphere는 이제 Apache Flink (잠복기)라고합니다.

성층권을 한번보세요. 더 많은 연산자 (지도, 축소, 결합, 결합, 교차, 반복)를 제공하는 또 다른 Big Data 런타임입니다. 또한 고급 데이터 흐름 그래프를 정의 할 수 있습니다 (Hadoop MR을 사용하면 작업을 체인화해야합니다).

Stratosphere는 또한 그래프 처리 추상화 (Spargel)로 BSP를 지원합니다.

과학 논문을 읽고 싶다면 Nephele / PACTs : 웹 스케일 분석 처리를위한 프로그래밍 모델 및 실행 프레임 워크에서 시스템의 이론적 배경을 설명하십시오.

현장의 또 다른 시스템은 자체 모델 (RDD)을 가진 Spark입니다. 여기 BSP가 언급되었으므로, BSP에 대한 대안 인 GraphLab도 살펴보십시오.
==============================
4.Microsoft의 Dryad는 MapReduce보다 더 일반적인 것으로 주장됩니다.

Microsoft의 Dryad는 MapReduce보다 더 일반적인 것으로 주장됩니다.
==============================
5.MapReduce의 가장 좋은 대안은 MapReduce보다 10 ~ 100 배 빠른 Spark입니다. 또한 유지 관리가 쉽고 고성능 코딩이 쉽지 않습니다.

MapReduce의 가장 좋은 대안은 MapReduce보다 10 ~ 100 배 빠른 Spark입니다. 또한 유지 관리가 쉽고 고성능 코딩이 쉽지 않습니다.

from https://stackoverflow.com/questions/8692806/mapreduce-alternatives by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Hbase-hadoop 통합에서 데이터 노드, regionserver의 역할 (0)	2019.07.05
[HADOOP] hdfs 파일 병합 (0)	2019.07.05
[HADOOP] HDFS 디렉토리 크기를 확인하는 방법은 무엇입니까? (0)	2019.07.05
[HADOOP] 하둡에서 NullWritable을 사용할 때의 이점 (0)	2019.07.04
[HADOOP] Hadoop의 단일 모드와 가상 분산 모드의 차이점은 무엇입니까? (0)	2019.07.04

복붙노트

[HADOOP] MapReduce 대안

MapReduce 대안

해결법

3.업데이트 (2014 년 8 월) : Stratosphere는 이제 Apache Flink (잠복기)라고합니다.

4.Microsoft의 Dryad는 MapReduce보다 더 일반적인 것으로 주장됩니다.

5.MapReduce의 가장 좋은 대안은 MapReduce보다 10 ~ 100 배 빠른 Spark입니다. 또한 유지 관리가 쉽고 고성능 코딩이 쉽지 않습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바