복붙노트

[HADOOP] 하둡 - "코드가 계산에 가까운 데이터를 이동"

HADOOP

하둡 - "코드가 계산에 가까운 데이터를 이동"

난 그냥 "코드가 계산을위한 주변의 데이터 이동"이 견적을 명확히하고자,

감사

해결법

  1. ==============================

    1.실제로, 일부 파일 적은 수의 (또는 정확히 말하면 분할) 때 큰 클러스터, 데이터가 실제로 어느 정도 작업 대기 시간을 줄일 수있는 단지 몇 호스트에 항아리를 보내는 최적화에 처리 할 수 ​​있습니다. 이러한 최적화가 계획되어 있는지 모르겠어요.

    실제로, 일부 파일 적은 수의 (또는 정확히 말하면 분할) 때 큰 클러스터, 데이터가 실제로 어느 정도 작업 대기 시간을 줄일 수있는 단지 몇 호스트에 항아리를 보내는 최적화에 처리 할 수 ​​있습니다. 이러한 최적화가 계획되어 있는지 모르겠어요.

  2. ==============================

    2.하둡 클러스터에서는 데이터와 계산에 대해 동일한 노드를 사용합니다. 그게 당신의 HDFS의 데이터 노드가 계산을 위해 작업 락카에 의해 사용되는 동일한 클러스터에 설정을 의미합니다. 데이터 저장 위치 그래서 지금 당신이 실행할 때 MR 작업 작업 추적기 보인다. 다른 계산 모델 데이터에서 반면 동일한 클러스터에 저장되지 않으며, 당신은 당신이 어떤 컴퓨팅 노드에 계산을 수행하는 동안 데이터를 이동 할 수 있습니다.

    하둡 클러스터에서는 데이터와 계산에 대해 동일한 노드를 사용합니다. 그게 당신의 HDFS의 데이터 노드가 계산을 위해 작업 락카에 의해 사용되는 동일한 클러스터에 설정을 의미합니다. 데이터 저장 위치 그래서 지금 당신이 실행할 때 MR 작업 작업 추적기 보인다. 다른 계산 모델 데이터에서 반면 동일한 클러스터에 저장되지 않으며, 당신은 당신이 어떤 컴퓨팅 노드에 계산을 수행하는 동안 데이터를 이동 할 수 있습니다.

    당신이 일을 시작하면 모든지도 기능은 입력 파일의 분할을 얻을 것이다. 입력 파일의 분할이 같은 랙에 그들에게 더 가까이 또는 다른 말로 그래서이지도 ​​기능이 실행됩니다. 이 데이터에 가깝게 이루어집니다 우리가 계산을 의미하는 것입니다.

    그래서 귀하의 질문에, 당신의 코드가 모든 노드에 복사 MR 작업을 실행할 때마다 명확히한다. 우리는 새로운 코드가 모든 노드에 복사 된 코드를 변경한다면.

  3. from https://stackoverflow.com/questions/11602699/hadoop-code-moves-near-data-for-computation by cc-by-sa and MIT license