복붙노트

[HADOOP] HDFS를 사용하지 않는 경우 데이터 지역

HADOOP

HDFS를 사용하지 않는 경우 데이터 지역

MySql 서버 등과 같은 HDFS 이외의 다른 스토리지를 제공 할 때 Hadoop의 Map / Reduce 부분의 데이터 로컬 리티 기능은 어떻게됩니까? 즉, Hadoop Map / Reduce는 데이터 로컬 성을 사용하여 데이터와 동일한 노드에서 맵 작업을 시작하려고하지만 데이터가 SQL Server에 저장되면 작업 노드에 로컬 데이터가 없다는 것을 이해합니다. 모든 데이터는 SQL Server 노드에 있습니다. 그렇다면이 경우 데이터 지역성이 없어지거나 데이터 지역성의 정의가 바뀌고 있습니까? 변경되면 새로운 정의는 무엇입니까?

해결법

  1. ==============================

    1.데이터가 클러스터에없는 경우 데이터 지역성이 없습니다. 모든 데이터는 원격 소스에서 복사해야합니다. 이는 HDFS의 데이터가 포함 된 노드에서 작업을 실행할 수없는 것과 같습니다. S3, HBase 및 DB를 포함하여 원격 소스를 사용하는 몇 가지 입력 형식이 있습니다. HDFS에 데이터를 넣을 수 있다면 좋습니다. 자주 업데이트되는 소량의 데이터에 대해 Mongo를 원격 소스로 매우 정기적으로 사용하고 결과에 만족합니다.

    데이터가 클러스터에없는 경우 데이터 지역성이 없습니다. 모든 데이터는 원격 소스에서 복사해야합니다. 이는 HDFS의 데이터가 포함 된 노드에서 작업을 실행할 수없는 것과 같습니다. S3, HBase 및 DB를 포함하여 원격 소스를 사용하는 몇 가지 입력 형식이 있습니다. HDFS에 데이터를 넣을 수 있다면 좋습니다. 자주 업데이트되는 소량의 데이터에 대해 Mongo를 원격 소스로 매우 정기적으로 사용하고 결과에 만족합니다.

  2. from https://stackoverflow.com/questions/9171016/data-locality-if-hdfs-not-used by cc-by-sa and MIT license