[HADOOP] Spark가있는 Hadoop의 HDFS
HADOOPSpark가있는 Hadoop의 HDFS
저는 클러스터 컴퓨팅을 처음 접했고 Spark에서 최소 2 노드 클러스터를 설정하려고합니다. 내가 아직도 혼란스러워하는 부분은 무엇입니까? 먼저 Hadoop 전체 설치를 설정해야합니까? 아니면 Spark에서 포함 된 Hadoop 버전을 함께 제공합니까?
내가 스파크에 관해서 발견 한 것들은이 사실을 분명히 밝혀 내지 못합니다. 필자는 Spark이 Hadoop을 대체하기보다는 확장 된 것으로 이해하고 있지만 독립적으로 실행되는 Hadoop 시스템이 필요하다면 나에게 명확하지 않습니다.
HDFS가 필요합니다. 따라서 Hadoop의 파일 시스템 부분을 사용하기에 충분합니까?
누군가 나에게이 사실을 분명히 지적 할 수 있습니까?
해결법
-
==============================
1.Apache Spark는 Hadoop과 독립적입니다. 스파크는 다양한 데이터 소스 (HDFS 포함)를 사용할 수 있으며 독립형 클러스터에서 실행하거나 기존 리소스 관리 프레임 워크 (예 : YARN, Mesos)를 사용하여 실행할 수 있습니다.
Apache Spark는 Hadoop과 독립적입니다. 스파크는 다양한 데이터 소스 (HDFS 포함)를 사용할 수 있으며 독립형 클러스터에서 실행하거나 기존 리소스 관리 프레임 워크 (예 : YARN, Mesos)를 사용하여 실행할 수 있습니다.
따라서 Spark에만 관심이 있다면 Hadoop을 설치할 필요가 없습니다.
from https://stackoverflow.com/questions/29368616/hadoops-hdfs-with-spark by cc-by-sa and MIT license