복붙노트

[HADOOP] Cassandra / HDFS 및 Spark의 데이터 모션

HADOOP

Cassandra / HDFS 및 Spark의 데이터 모션

분산 스토리지 및 분석 아키텍처를 설계 할 때 데이터 노드와 동일한 시스템에서 분석 엔진을 실행하는 것이 일반적인 사용 패턴입니까? 특히 Cassandra / HDFS 노드에서 Spark / Storm을 직접 실행하는 것이 합리적입니까?

Hortonworks에 따르면 YARN이 데이터 모션을 최소화하기 때문에 HDFS의 MapReduce에는 이러한 종류의 사용 패턴이 있음을 알고 있습니다. 나는 이것이 다른 시스템에서도 마찬가지인지 전혀 모른다. 그들이 서로 플러그 인 할 수있는 것처럼 보였지만 온라인에 대한 정보를 찾을 수없는 것 같습니다.

나는이 주제에 대한 일종의 초보자이므로 모든 자원이나 답변에 크게 감사하겠습니다.

감사

해결법

  1. ==============================

    1.예. Cassandra 노드에서 Spark를 실행하여 시스템 간의 데이터 이동을 최소화하는 것이 좋습니다.

    예. Cassandra 노드에서 Spark를 실행하여 시스템 간의 데이터 이동을 최소화하는 것이 좋습니다.

    Cassandra 테이블에서 RDD를 작성하면 RDD 파티션이 각 머신에 로컬 인 토큰 범위에서 작성됩니다.

    다음은 Spark Cassandra 커넥터에 대한이 주제에 대한 대화 링크입니다.

    Cassandra 및 Spark : 데이터 지역성 최적화

    요약에서 알 수 있듯이 : "분산 데이터베이스에서 분석을 수행하는 데있어 중요한 것은 세 가지뿐입니다 : 지역, 지역 및 지역."

  2. from https://stackoverflow.com/questions/31299499/data-motion-in-cassandra-hdfs-and-spark by cc-by-sa and MIT license