복붙노트

[HADOOP] Spark 작업 부하에 HDFS가 필요합니까?

HADOOP

Spark 작업 부하에 HDFS가 필요합니까?

HDFS는 필요하지 않지만 권장 사항은 일부 장소에 나타납니다.

HDFS 실행에 드는 노력을 평가하려면 다음을 수행하십시오.

Spark 워크로드에 HDFS를 사용하면 어떤 이점이 있습니까?

해결법

  1. ==============================

    1.스파크는 분산 처리 엔진이며 HDFS는 분산 스토리지 시스템입니다.

    스파크는 분산 처리 엔진이며 HDFS는 분산 스토리지 시스템입니다.

    HDFS가 옵션이 아니면 Spark는 Apache Cassandra 또는 Amazon S3의 형태로 다른 대안을 사용해야합니다.

    이 비교를 보아라.

    S3 - 비 긴급 배치 작업. S3는 데이터 지역이 중요하지 않을 때 매우 구체적인 사용 사례에 적합합니다.

    Cassandra - 스트리밍 데이터 분석 및 일괄 작업에 대한 과잉 공격에 이상적입니다.

    HDFS - 데이터 위치를 손상시키지 않으면 서 일괄 처리 작업에 매우 적합합니다.

    Spark 분산 처리를위한 스토리지 엔진으로 HDFS를 언제 사용합니까?

  2. ==============================

    2.가장 짧은 대답은 "아니오, 필요하지 않습니다"입니다. HDFS 없이도 데이터를 분석 할 수 있지만 물론 모든 노드의 데이터를 복제해야합니다.

    가장 짧은 대답은 "아니오, 필요하지 않습니다"입니다. HDFS 없이도 데이터를 분석 할 수 있지만 물론 모든 노드의 데이터를 복제해야합니다.

    긴 대답은 꽤 직관력이 없으며 스택 오버 플로우 커뮤니티의 도움을 받아 여전히 이해하려고 노력하고 있습니다.

    Spark local 대 hdfs 성능

  3. ==============================

    3.HDFS (또는 임의의 분산 파일 시스템)는 데이터를 훨씬 간단하게 배포합니다. 로컬 파일 시스템을 사용하면 수동으로 데이터를 개별 노드에 분할 / 복사하고 작업을 실행할 때 데이터 분포를 알아야합니다. 또한 HDFS는 장애가 발생한 노드 오류도 처리합니다. Spark와 HDFS의 통합으로 인해 데이터 배포에 대해 잘 알고 있으므로 필요한 데이터가있는 동일한 노드에 작업을 예약하려고합니다.

    HDFS (또는 임의의 분산 파일 시스템)는 데이터를 훨씬 간단하게 배포합니다. 로컬 파일 시스템을 사용하면 수동으로 데이터를 개별 노드에 분할 / 복사하고 작업을 실행할 때 데이터 분포를 알아야합니다. 또한 HDFS는 장애가 발생한 노드 오류도 처리합니다. Spark와 HDFS의 통합으로 인해 데이터 배포에 대해 잘 알고 있으므로 필요한 데이터가있는 동일한 노드에 작업을 예약하려고합니다.

    둘째 : 어떤 문제가 지시에 정확하게 부딪 혔습니까?

    BTW : AWS에서 간편한 설정을 원할 경우 DCOS를 사용하면 단일 명령으로 HDFS를 설치할 수 있습니다.

  4. ==============================

    4.따라서 Cloudera 또는 Hortenworks 배포판을 사용하여 전체 스택을 매우 쉽게로드 할 수 있습니다. CDH는 CDH에서 mesos를 구성하는 것이 훨씬 더 어려울지라도 YARN과 함께 사용됩니다. Horten은 사용자 정의하기가 훨씬 쉽습니다.

    따라서 Cloudera 또는 Hortenworks 배포판을 사용하여 전체 스택을 매우 쉽게로드 할 수 있습니다. CDH는 CDH에서 mesos를 구성하는 것이 훨씬 더 어려울지라도 YARN과 함께 사용됩니다. Horten은 사용자 정의하기가 훨씬 쉽습니다.

    HDFS는 셔플 링 / 데이터 전송이 매우 비싸기 때문에 데이터 노드 = 데이터 지역 (데이터가있는 프로세스) 때문에 우수합니다. HDFS는 또한 자연스럽게 파일을 차단하여 Spark이 블록에서 파티션을 나눌 수있게합니다. (128MB 블록, 당신은 이것을 바꿀 수있다).

    S3와 Redshift를 사용할 수 있습니다.

    여길 봐: https://github.com/databricks/spark-redshift

  5. from https://stackoverflow.com/questions/32669187/is-hdfs-necessary-for-spark-workloads by cc-by-sa and MIT license