[HADOOP] RDD가 Spark의 메모리에 맞지 않으면 어떻게됩니까? [복제]
HADOOPRDD가 Spark의 메모리에 맞지 않으면 어떻게됩니까? [복제]
내가 아는 한, Spark는 디스크 저장 옵션을 사용하여 persist를 호출하지 않으면 메모리에서 모든 계산을 시도합니다. 그러나 우리는 지속성을 사용하지 않으면 RDD가 메모리에 맞지 않을 때 Spark에서 무엇을합니까? 거대한 데이터가 있다면 어떨까요? 스파크가 충돌없이 어떻게 처리할까요?
해결법
-
==============================
1.Apache Spark FAQ :
Apache Spark FAQ :
Spark의 오퍼레이터는 메모리에 맞지 않는 데이터를 디스크에 쏟아 부어 모든 크기의 데이터에서 잘 작동되도록합니다. 마찬가지로, 메모리에 맞지 않는 캐시 된 데이터 세트는 디스크에 유출되거나 필요할 때 RDD의 저장 장치 레벨에 따라 즉시 재 계산됩니다.
아래 링크를 참조하여 스토리지 레벨 및 이러한 레벨 사이에서 적합한 레벨을 선택하는 방법에 대해 자세히 알아보십시오. 프로그래밍 가이드 .html
from https://stackoverflow.com/questions/32582066/what-happens-if-an-rdd-cant-fit-into-memory-in-spark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] JRE를 사용하여 sqoop을 실행하는 것처럼 보이지만 JAVA_HOME은 JDK로 설정됩니다. (0) | 2019.06.23 |
---|---|
[HADOOP] 다른 폴더에 출력 작성하기 hadoop (0) | 2019.06.23 |
[HADOOP] mysql과 함께 sqoop 가져 오기 문제 (0) | 2019.06.23 |
[HADOOP] Flume NG 및 HDFS (0) | 2019.06.23 |
[HADOOP] Hadoop의 이상적인 리듀서 수는 무엇입니까? (0) | 2019.06.23 |