Spark 작업 부하에 HDFS가 필요합니까?

HDFS는 필요하지 않지만 권장 사항은 일부 장소에 나타납니다.

HDFS 실행에 드는 노력을 평가하려면 다음을 수행하십시오.

Spark 워크로드에 HDFS를 사용하면 어떤 이점이 있습니까?

해결법

==============================
1.스파크는 분산 처리 엔진이며 HDFS는 분산 스토리지 시스템입니다.

스파크는 분산 처리 엔진이며 HDFS는 분산 스토리지 시스템입니다.

HDFS가 옵션이 아니면 Spark는 Apache Cassandra 또는 Amazon S3의 형태로 다른 대안을 사용해야합니다.

이 비교를 보아라.

S3 - 비 긴급 배치 작업. S3는 데이터 지역이 중요하지 않을 때 매우 구체적인 사용 사례에 적합합니다.

Cassandra - 스트리밍 데이터 분석 및 일괄 작업에 대한 과잉 공격에 이상적입니다.

HDFS - 데이터 위치를 손상시키지 않으면 서 일괄 처리 작업에 매우 적합합니다.

Spark 분산 처리를위한 스토리지 엔진으로 HDFS를 언제 사용합니까?
==============================
2.가장 짧은 대답은 "아니오, 필요하지 않습니다"입니다. HDFS 없이도 데이터를 분석 할 수 있지만 물론 모든 노드의 데이터를 복제해야합니다.

가장 짧은 대답은 "아니오, 필요하지 않습니다"입니다. HDFS 없이도 데이터를 분석 할 수 있지만 물론 모든 노드의 데이터를 복제해야합니다.

긴 대답은 꽤 직관력이 없으며 스택 오버 플로우 커뮤니티의 도움을 받아 여전히 이해하려고 노력하고 있습니다.

Spark local 대 hdfs 성능
==============================
3.HDFS (또는 임의의 분산 파일 시스템)는 데이터를 훨씬 간단하게 배포합니다. 로컬 파일 시스템을 사용하면 수동으로 데이터를 개별 노드에 분할 / 복사하고 작업을 실행할 때 데이터 분포를 알아야합니다. 또한 HDFS는 장애가 발생한 노드 오류도 처리합니다. Spark와 HDFS의 통합으로 인해 데이터 배포에 대해 잘 알고 있으므로 필요한 데이터가있는 동일한 노드에 작업을 예약하려고합니다.

HDFS (또는 임의의 분산 파일 시스템)는 데이터를 훨씬 간단하게 배포합니다. 로컬 파일 시스템을 사용하면 수동으로 데이터를 개별 노드에 분할 / 복사하고 작업을 실행할 때 데이터 분포를 알아야합니다. 또한 HDFS는 장애가 발생한 노드 오류도 처리합니다. Spark와 HDFS의 통합으로 인해 데이터 배포에 대해 잘 알고 있으므로 필요한 데이터가있는 동일한 노드에 작업을 예약하려고합니다.

둘째 : 어떤 문제가 지시에 정확하게 부딪 혔습니까?

BTW : AWS에서 간편한 설정을 원할 경우 DCOS를 사용하면 단일 명령으로 HDFS를 설치할 수 있습니다.
==============================
4.따라서 Cloudera 또는 Hortenworks 배포판을 사용하여 전체 스택을 매우 쉽게로드 할 수 있습니다. CDH는 CDH에서 mesos를 구성하는 것이 훨씬 더 어려울지라도 YARN과 함께 사용됩니다. Horten은 사용자 정의하기가 훨씬 쉽습니다.

따라서 Cloudera 또는 Hortenworks 배포판을 사용하여 전체 스택을 매우 쉽게로드 할 수 있습니다. CDH는 CDH에서 mesos를 구성하는 것이 훨씬 더 어려울지라도 YARN과 함께 사용됩니다. Horten은 사용자 정의하기가 훨씬 쉽습니다.

HDFS는 셔플 링 / 데이터 전송이 매우 비싸기 때문에 데이터 노드 = 데이터 지역 (데이터가있는 프로세스) 때문에 우수합니다. HDFS는 또한 자연스럽게 파일을 차단하여 Spark이 블록에서 파티션을 나눌 수있게합니다. (128MB 블록, 당신은 이것을 바꿀 수있다).

S3와 Redshift를 사용할 수 있습니다.

여길 봐: https://github.com/databricks/spark-redshift

from https://stackoverflow.com/questions/32669187/is-hdfs-necessary-for-spark-workloads by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 테스트 HBase 연결 (0)	2019.06.21
[HADOOP] 여러 파일을 단일 매퍼로 결합하는 TextLine과 같은 Scalding Source 만들기 (0)	2019.06.21
[HADOOP] JSON 파일 용 Hadoop (0)	2019.06.21
[HADOOP] Spark - 접속시에 실패했습니다 : java.net.ConnectException - localhost (0)	2019.06.21
[HADOOP] Hadoop MapReduce - 각 입력에 대해 하나의 출력 파일 (0)	2019.06.20

복붙노트

[HADOOP] Spark 작업 부하에 HDFS가 필요합니까?

Spark 작업 부하에 HDFS가 필요합니까?

해결법

1.스파크는 분산 처리 엔진이며 HDFS는 분산 스토리지 시스템입니다.

2.가장 짧은 대답은 "아니오, 필요하지 않습니다"입니다. HDFS 없이도 데이터를 분석 할 수 있지만 물론 모든 노드의 데이터를 복제해야합니다.

4.따라서 Cloudera 또는 Hortenworks 배포판을 사용하여 전체 스택을 매우 쉽게로드 할 수 있습니다. CDH는 CDH에서 mesos를 구성하는 것이 훨씬 더 어려울지라도 YARN과 함께 사용됩니다. Horten은 사용자 정의하기가 훨씬 쉽습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바