[HADOOP] MapReduce 또는 Spark? [닫은]
HADOOPMapReduce 또는 Spark? [닫은]
나는 cloudera와 함께 hadoop과 mapreduce를 테스트했으며, 나는 그것이 가장 최근의 관련 BigData 솔루션이라고 생각했다. 그러나 며칠 전, 나는 이것을 발견했다. https://spark.incubator.apache.org/
Hadoop 클러스터의 최상위에서 작업 할 수있는 "번개 빠른 클러스터 컴퓨팅 시스템"이며 맵 축소 기능을 무력화 할 수 있습니다. mapreduce보다 RAM에서 더 많이 작동하는 것을 보았습니다. 필자는 단일 컴퓨터에서 발생할 수있는 I / O 문제를 극복하기 위해 클러스터 컴퓨팅을 수행해야 할 때 mapreduce가 여전히 적절하다고 생각합니다. 그러나 Spark가 mapreduce가하는 작업을 수행 할 수 있고 여러 작업에서보다 효율적일 수 있으므로 MapReduce가 끝난 것이 아닌가? 아니면 MapReduce가 할 수있는 것이 더 있습니까? 아니면 MapReduce를 특정 상황에서 Spark보다 효율적으로 사용할 수 있습니까?
해결법
-
==============================
1.MapReduce는 본질적으로 배치 지향적입니다. 따라서 Hive 및 Pig와 같은 MR 구현 위에있는 모든 프레임 워크는 본질적으로 배치 지향적입니다. 기계 학습 및 대화 형 분석의 경우와 같이 반복 처리의 경우 Hadoop / MR은 요구 사항을 충족하지 못합니다. 여기 Cloudera의 멋진 기사가 Spark에서 아주 잘 요약되어 있습니다.
MapReduce는 본질적으로 배치 지향적입니다. 따라서 Hive 및 Pig와 같은 MR 구현 위에있는 모든 프레임 워크는 본질적으로 배치 지향적입니다. 기계 학습 및 대화 형 분석의 경우와 같이 반복 처리의 경우 Hadoop / MR은 요구 사항을 충족하지 못합니다. 여기 Cloudera의 멋진 기사가 Spark에서 아주 잘 요약되어 있습니다.
그것은 MR의 끝이 아닙니다. 이 글을 쓰는 시점에서 Hadoop은 Spark와 비교했을 때 훨씬 성숙했으며 많은 공급 업체가 지원합니다. 시간이 지남에 따라 바뀔 것입니다. Cloudera는 CDH에서 Spark를 포함하기 시작했으며 시간이 지남에 따라 더 많은 공급 업체가 Big Data 배포에이를 포함시키고 상업적 지원을 제공 할 것입니다. 우리는 가까운 미래에 MR과 Spark가 병행되어 보일 것입니다.
또한 Hadoop 2 (일명 YARN), MR 및 기타 모델 (Spark 포함)을 단일 클러스터에서 실행할 수 있습니다. 따라서 Hadoop은 아무데도 가지 않습니다.
-
==============================
2.네가하고 싶은 일에 달렸어.
네가하고 싶은 일에 달렸어.
MapReduce의 가장 큰 장점은 대용량 텍스트 파일을 많이 처리하고 있다는 것입니다. Hadoop의 구현은 문자열 처리를 기반으로하며 매우 I / O가 큽니다.
MapReduce의 문제점은 사람들이 쉽게 병렬 해머를보고 모든 것이 못처럼 보이기 시작한다는 것입니다. 불행히도 대형 텍스트 파일을 처리하는 것 이외의 다른 작업에 대한 Hadoop의 성능은 끔찍합니다. 알맞은 병렬 코드를 작성하면 Hadoop이 첫 번째 VM을 생성하기 전에 완료 할 수 있습니다. 내 코드에서 100 배의 차이를 보았습니다.
Spark은 모든 I / O 의존도와 같은 많은 Hadoop 오버 헤드를 제거합니다. 대신 모든 것을 메모리에 유지합니다. 메모리가 충분하면 좋습니다. 그렇지 않은 경우에는별로 좋지 않습니다.
Spark는 Hadoop의 확장이며 대체가 아니라는 것을 기억하십시오. 로그를 처리하는 데 Hadoop을 사용하는 경우 Spark은 도움이되지 않을 것입니다. 더 복잡하고, 밀접하게 결합 된 문제가 있다면 Spark가 많은 도움이 될 것입니다. Spark의 Scala 인터페이스가 온라인 계산을 좋아할 수도 있습니다.
from https://stackoverflow.com/questions/22167684/mapreduce-or-spark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop.tmp.dir은 무엇이되어야합니까? (0) | 2019.06.13 |
---|---|
[HADOOP] Hadoop 2.2.0 : "이름 또는 서비스를 알 수 없음"경고 (0) | 2019.06.13 |
[HADOOP] Spark에서 CSV에 쓰는 방법 (0) | 2019.06.13 |
[HADOOP] 파일에 하이브 쿼리 출력 (0) | 2019.06.13 |
[HADOOP] 원사가 기존지도에 가져다주는 또 다른 이점은 무엇입니까? (0) | 2019.06.13 |