복붙노트

[HADOOP] 하둡 분산 캐시 개체가 작업 중 변경

HADOOP

하둡 분산 캐시 개체가 작업 중 변경

나는 내가 DistributedCache 파일을 필요로하는 염기 서열 하둡 작업의 수를 가지고있다.

드라이버 클래스 (컨트롤러) 그것은 DistributedCache에 배치하며 새로운 작업을 시작, 파일을 수정, 이전 작업에서 입력을 받는다.

첫 번째 작업 후 (즉, 두 번째 작업에서),이 오류가 발생합니다 :

java.io.IOException: 
The distributed cache object hdfs://xxxx/xx/x/modelfile2#modelfile2 
changed during the job from 11/8/12 11:55 PM to 11/8/12 11:55 PM

사람이 문제가 무엇인지 알고 있나요?

해결법

  1. ==============================

    1.TrackerDistributedCacheManager.java 방법 downloadCacheObject의 소식통에 따르면이 예외는 무시되지 발생 및 로컬 파일 시스템에 HDFS에서 파일의 실제 다운로드가 발생하지 않을 때. 그래서 작업은 분산 캐시에 그 파일을 찾을 수 없습니다. 나는 여러 작업이 동일한 컨트롤러에서 분산 캐시에서 같은 메일에 파일을 넣을 때 하둡에 약간의 버그가있을 수 있습니다, 두 번 같은 오브젝트를 등록이 될 수 있음을 의심, 또는 것입니다.

    TrackerDistributedCacheManager.java 방법 downloadCacheObject의 소식통에 따르면이 예외는 무시되지 발생 및 로컬 파일 시스템에 HDFS에서 파일의 실제 다운로드가 발생하지 않을 때. 그래서 작업은 분산 캐시에 그 파일을 찾을 수 없습니다. 나는 여러 작업이 동일한 컨트롤러에서 분산 캐시에서 같은 메일에 파일을 넣을 때 하둡에 약간의 버그가있을 수 있습니다, 두 번 같은 오브젝트를 등록이 될 수 있음을 의심, 또는 것입니다.

  2. from https://stackoverflow.com/questions/13299453/hadoop-distributed-cache-object-changed-during-job by cc-by-sa and MIT license