[HADOOP] 하둡 - "코드가 계산에 가까운 데이터를 이동"
HADOOP하둡 - "코드가 계산에 가까운 데이터를 이동"
난 그냥 "코드가 계산을위한 주변의 데이터 이동"이 견적을 명확히하고자,
감사
해결법
-
==============================
1.실제로, 일부 파일 적은 수의 (또는 정확히 말하면 분할) 때 큰 클러스터, 데이터가 실제로 어느 정도 작업 대기 시간을 줄일 수있는 단지 몇 호스트에 항아리를 보내는 최적화에 처리 할 수 있습니다. 이러한 최적화가 계획되어 있는지 모르겠어요.
실제로, 일부 파일 적은 수의 (또는 정확히 말하면 분할) 때 큰 클러스터, 데이터가 실제로 어느 정도 작업 대기 시간을 줄일 수있는 단지 몇 호스트에 항아리를 보내는 최적화에 처리 할 수 있습니다. 이러한 최적화가 계획되어 있는지 모르겠어요.
-
==============================
2.하둡 클러스터에서는 데이터와 계산에 대해 동일한 노드를 사용합니다. 그게 당신의 HDFS의 데이터 노드가 계산을 위해 작업 락카에 의해 사용되는 동일한 클러스터에 설정을 의미합니다. 데이터 저장 위치 그래서 지금 당신이 실행할 때 MR 작업 작업 추적기 보인다. 다른 계산 모델 데이터에서 반면 동일한 클러스터에 저장되지 않으며, 당신은 당신이 어떤 컴퓨팅 노드에 계산을 수행하는 동안 데이터를 이동 할 수 있습니다.
하둡 클러스터에서는 데이터와 계산에 대해 동일한 노드를 사용합니다. 그게 당신의 HDFS의 데이터 노드가 계산을 위해 작업 락카에 의해 사용되는 동일한 클러스터에 설정을 의미합니다. 데이터 저장 위치 그래서 지금 당신이 실행할 때 MR 작업 작업 추적기 보인다. 다른 계산 모델 데이터에서 반면 동일한 클러스터에 저장되지 않으며, 당신은 당신이 어떤 컴퓨팅 노드에 계산을 수행하는 동안 데이터를 이동 할 수 있습니다.
당신이 일을 시작하면 모든지도 기능은 입력 파일의 분할을 얻을 것이다. 입력 파일의 분할이 같은 랙에 그들에게 더 가까이 또는 다른 말로 그래서이지도 기능이 실행됩니다. 이 데이터에 가깝게 이루어집니다 우리가 계산을 의미하는 것입니다.
그래서 귀하의 질문에, 당신의 코드가 모든 노드에 복사 MR 작업을 실행할 때마다 명확히한다. 우리는 새로운 코드가 모든 노드에 복사 된 코드를 변경한다면.
from https://stackoverflow.com/questions/11602699/hadoop-code-moves-near-data-for-computation by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 일반 인증 실패 : 사용자 원사가 어떤 가장 구성되어 있지 않습니다. impersonationUser : alluxio 맵리 듀스의 루트 (0) | 2019.09.20 |
---|---|
[HADOOP] UDF에 대한 인수로 돼지 패스 관계 (0) | 2019.09.20 |
[HADOOP] 아파치 돼지 오류 JSON 데이터를 덤프 동안 (0) | 2019.09.20 |
[HADOOP] 자바를 통해 하둡 클러스터의 모든 원사 응용 프로그램을 나열 (0) | 2019.09.20 |
[HADOOP] HDP 2.5 : 스파크 역사 서버 UI가 완료되지 않은 응용 프로그램을 표시하지 않습니다 (0) | 2019.09.20 |