복붙노트

[HADOOP] 아파치가 뾰족하게 달리지 않고 달릴 수 있습니까?

HADOOP

아파치가 뾰족하게 달리지 않고 달릴 수 있습니까?

Spark와 Hadoop 사이에 어떤 의존성이 있습니까?

그렇지 않은 경우 Hadoop없이 Spark를 실행하면 놓칠 수있는 기능이 있습니까?

해결법

  1. ==============================

    1.Spark은 Hadoop없이 실행할 수 있지만 일부 기능은 Hadoop의 코드 (예 : Parquet 파일 처리)에 의존합니다. 우리는 Spark on Mesos와 S3를 사용하고 있습니다. 설정하는 데 조금 까다 롭지 만 한 번 작업이 잘됩니다 (여기에 올바르게 설정해야하는 내용을 읽을 수 있습니다).

    Spark은 Hadoop없이 실행할 수 있지만 일부 기능은 Hadoop의 코드 (예 : Parquet 파일 처리)에 의존합니다. 우리는 Spark on Mesos와 S3를 사용하고 있습니다. 설정하는 데 조금 까다 롭지 만 한 번 작업이 잘됩니다 (여기에 올바르게 설정해야하는 내용을 읽을 수 있습니다).

    (편집) 참고 : 버전 2.3.0부터 Spark는 Kubernetes에 대한 기본 지원을 추가했습니다.

  2. ==============================

    2.Spark는 메모리 내 분산 컴퓨팅 엔진입니다.

    Spark는 메모리 내 분산 컴퓨팅 엔진입니다.

    Hadoop은 분산 스토리지 (HDFS) 및 분산 처리 (YARN)를위한 프레임 워크입니다.

    Spark은 Hadoop 구성 요소 (HDFS / YARN)의 유무에 관계없이 실행할 수 있습니다.

    Spark에는 자체 분산 스토리지 시스템이 없기 때문에 분산 컴퓨팅을 위해 이러한 스토리지 시스템 중 하나에 의존해야합니다.

    S3 - 비 긴급 배치 작업. S3는 데이터 지역성이 중요하지 않은 매우 구체적인 사용 사례에 적합합니다.

    Cassandra - 스트리밍 데이터 분석 및 일괄 작업에 대한 과잉 공격에 이상적입니다.

    HDFS - 데이터 위치를 손상시키지 않으면 서 일괄 처리 작업에 매우 적합합니다.

    Standalone, Yarn 및 Mesos의 세 가지 모드로 Spark를 실행할 수 있습니다.

    분산 저장 및 분산 처리에 대한 자세한 설명은 아래 SE 질문을 참조하십시오.

    Spark에 어떤 클러스터 유형을 선택해야합니까?

  3. ==============================

    3.기본적으로 Spark에는 저장 메커니즘이 없습니다.

    기본적으로 Spark에는 저장 메커니즘이 없습니다.

    데이터를 저장하려면 빠르고 확장 가능한 파일 시스템이 필요합니다. S3 또는 HDFS 또는 다른 파일 시스템을 사용할 수 있습니다. Hadoop은 저렴한 비용으로 경제적 인 옵션입니다.

    또한 Tachyon을 사용하면 Hadoop의 성능이 향상됩니다. 아파치 스파크 처리를 위해 Hadoop을 적극 권장합니다.

  4. ==============================

    4.예, 스파크는 뾰족하지 않고 달릴 수 있습니다. 모든 핵심 스파크 기능은 계속 작동하지만 hdfs 등을 통해 클러스터의 모든 노드에 모든 파일 (코드 및 데이터)을 쉽게 배포하는 등의 작업을 놓치게됩니다.

    예, 스파크는 뾰족하지 않고 달릴 수 있습니다. 모든 핵심 스파크 기능은 계속 작동하지만 hdfs 등을 통해 클러스터의 모든 노드에 모든 파일 (코드 및 데이터)을 쉽게 배포하는 등의 작업을 놓치게됩니다.

  5. ==============================

    5.예, Hadoop없이 Spark을 설치할 수 있습니다. 그건 좀 까다 롭습니다. arnon 링크를 참조하여 parquet을 사용하여 S3에서 데이터 저장소로 구성 할 수 있습니다. http://arnon.me/2015/08/spark-parquet-s3/

    예, Hadoop없이 Spark을 설치할 수 있습니다. 그건 좀 까다 롭습니다. arnon 링크를 참조하여 parquet을 사용하여 S3에서 데이터 저장소로 구성 할 수 있습니다. http://arnon.me/2015/08/spark-parquet-s3/

    Spark은 처리 만하고 동적 메모리를 사용하여 작업을 수행하지만 일부 데이터 저장 시스템이 필요한 데이터를 저장합니다. 여기서 hadoop은 Spark와 함께 역할을하며, Spark의 저장 공간을 제공합니다. Hadoop을 Spark과 함께 사용하는 또 다른 이유는 오픈 소스이기 때문에 다른 데이터 스토리지 시스템과 비교하여 쉽게 통합 할 수 있다는 것입니다. S3와 같은 다른 저장소의 경우 위 링크에서 언급 한 것처럼 구성해야합니다.

    그러나 Hadoop에는 Mapreduce라는 처리 단위도 있습니다.

    둘 다의 차이점을 알고 싶습니까?

    이 기사를 확인하십시오 : https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

    이 기사가 당신을 이해하는 데 도움이 될 것 같아요.

  6. ==============================

    6.Spark 설명서에 따라 Spark는 Hadoop없이 실행할 수 있습니다.

    Spark 설명서에 따라 Spark는 Hadoop없이 실행할 수 있습니다.

    리소스 관리자없이 독립 실행 형 모드로 실행할 수 있습니다.

    그러나 다중 노드 설정에서 실행하려면 YARN 또는 Mesos와 같은 리소스 관리자와 HDFS, S3 등과 같은 분산 파일 시스템이 필요합니다.

  7. ==============================

    7.예, 물론입니다. 스파크는 독립적 인 계산 프레임 워크입니다. Hadoop은 MapReduce 계산 프레임 워크가있는 분산 저장 시스템 (HDFS)입니다. Spark은 HDFS뿐만 아니라 전통적인 데이터베이스 (JDBC), 카프카 또는 로컬 디스크와 같은 다른 데이터 소스로부터 데이터를 가져올 수 있습니다.

    예, 물론입니다. 스파크는 독립적 인 계산 프레임 워크입니다. Hadoop은 MapReduce 계산 프레임 워크가있는 분산 저장 시스템 (HDFS)입니다. Spark은 HDFS뿐만 아니라 전통적인 데이터베이스 (JDBC), 카프카 또는 로컬 디스크와 같은 다른 데이터 소스로부터 데이터를 가져올 수 있습니다.

  8. ==============================

    8.예, Spark은 Hadoop 설치 여부에 관계없이 실행할 수 있습니다. 자세한 내용은 -https : //spark.apache.org/docs/latest/를 방문하십시오.

    예, Spark은 Hadoop 설치 여부에 관계없이 실행할 수 있습니다. 자세한 내용은 -https : //spark.apache.org/docs/latest/를 방문하십시오.

  9. ==============================

    9.아니요. 작업을 시작하기 위해 Hadoop을 완전히 설치해야합니다. - https://issues.apache.org/jira/browse/SPARK-10944

    아니요. 작업을 시작하기 위해 Hadoop을 완전히 설치해야합니다. - https://issues.apache.org/jira/browse/SPARK-10944

  10. from https://stackoverflow.com/questions/32022334/can-apache-spark-run-without-hadoop by cc-by-sa and MIT license