복붙노트

[HADOOP] RDD가 Spark의 메모리에 맞지 않으면 어떻게됩니까? [복제]

HADOOP

RDD가 Spark의 메모리에 맞지 않으면 어떻게됩니까? [복제]

내가 아는 한, Spark는 디스크 저장 옵션을 사용하여 persist를 호출하지 않으면 메모리에서 모든 계산을 시도합니다. 그러나 우리는 지속성을 사용하지 않으면 RDD가 메모리에 맞지 않을 때 Spark에서 무엇을합니까? 거대한 데이터가 있다면 어떨까요? 스파크가 충돌없이 어떻게 처리할까요?

해결법

  1. ==============================

    1.Apache Spark FAQ :

    Apache Spark FAQ :

    Spark의 오퍼레이터는 메모리에 맞지 않는 데이터를 디스크에 쏟아 부어 모든 크기의 데이터에서 잘 작동되도록합니다. 마찬가지로, 메모리에 맞지 않는 캐시 된 데이터 세트는 디스크에 유출되거나 필요할 때 RDD의 저장 장치 레벨에 따라 즉시 재 계산됩니다.

    아래 링크를 참조하여 스토리지 레벨 및 이러한 레벨 사이에서 적합한 레벨을 선택하는 방법에 대해 자세히 알아보십시오. 프로그래밍 가이드 .html

  2. from https://stackoverflow.com/questions/32582066/what-happens-if-an-rdd-cant-fit-into-memory-in-spark by cc-by-sa and MIT license