[HADOOP] HDFS를 사용하지 않는 경우 데이터 지역
HADOOPHDFS를 사용하지 않는 경우 데이터 지역
MySql 서버 등과 같은 HDFS 이외의 다른 스토리지를 제공 할 때 Hadoop의 Map / Reduce 부분의 데이터 로컬 리티 기능은 어떻게됩니까? 즉, Hadoop Map / Reduce는 데이터 로컬 성을 사용하여 데이터와 동일한 노드에서 맵 작업을 시작하려고하지만 데이터가 SQL Server에 저장되면 작업 노드에 로컬 데이터가 없다는 것을 이해합니다. 모든 데이터는 SQL Server 노드에 있습니다. 그렇다면이 경우 데이터 지역성이 없어지거나 데이터 지역성의 정의가 바뀌고 있습니까? 변경되면 새로운 정의는 무엇입니까?
해결법
-
==============================
1.데이터가 클러스터에없는 경우 데이터 지역성이 없습니다. 모든 데이터는 원격 소스에서 복사해야합니다. 이는 HDFS의 데이터가 포함 된 노드에서 작업을 실행할 수없는 것과 같습니다. S3, HBase 및 DB를 포함하여 원격 소스를 사용하는 몇 가지 입력 형식이 있습니다. HDFS에 데이터를 넣을 수 있다면 좋습니다. 자주 업데이트되는 소량의 데이터에 대해 Mongo를 원격 소스로 매우 정기적으로 사용하고 결과에 만족합니다.
데이터가 클러스터에없는 경우 데이터 지역성이 없습니다. 모든 데이터는 원격 소스에서 복사해야합니다. 이는 HDFS의 데이터가 포함 된 노드에서 작업을 실행할 수없는 것과 같습니다. S3, HBase 및 DB를 포함하여 원격 소스를 사용하는 몇 가지 입력 형식이 있습니다. HDFS에 데이터를 넣을 수 있다면 좋습니다. 자주 업데이트되는 소량의 데이터에 대해 Mongo를 원격 소스로 매우 정기적으로 사용하고 결과에 만족합니다.
from https://stackoverflow.com/questions/9171016/data-locality-if-hdfs-not-used by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 인덱스 7에서 잘못된 문자에 대한 Hadoop, Java 예외 설치? (0) | 2019.09.09 |
---|---|
[HADOOP] 스트리밍 하둡 전역 변수 (0) | 2019.09.09 |
[HADOOP] yarn hadoop 2.4.0 : 정보 메시지 : ipc.Client Retrying connect to server (0) | 2019.09.09 |
[HADOOP] 여러 레코드를 포함하는 삽입 문을 작성하는 Sqoop (0) | 2019.09.08 |
[HADOOP] 컨테이너 내부에서 YARN ContainerId를 어떻게 얻습니까? (0) | 2019.09.08 |