복붙노트

[HADOOP] HDFS는 캐싱 항아리 때문에 실패 스파크 작업

HADOOP

HDFS는 캐싱 항아리 때문에 실패 스파크 작업

나는 우리의 클러스터에서 테스트하는 HDFS에 스칼라 / 스파크 항아리를 업로드 할 수 있습니다. 실행 한 후, 나는 자주 할 필요가 변경이 실현. 그래서 변화가 지역적으로 다음 HDFS까지 다시 새 항아리를 밀어합니다. 나는이 작업을 수행 할 때, 종종 (항상), 하둡은 기본적으로이 병이 오래된 항아리 (대만족)와 동일하지 않다는 오류가 발생합니다.

나는, 내 휴지통을 삭제 .staging 및 디렉토리를 .sparkstaging하려고하지만 아무것도하지 않습니다. 나는 가끔 작동 항아리, 그리고 그것을하지 않습니다 다른 시간을 (여전히 말도 안 나는 처음에이 작업을 수행해야합니다)의 이름을 변경하려고합니다.

이 발생하는 이유를 아는 사람 있나요이며 어떻게 발생을 방지 할 수 있습니까? 어떤 도움을 주셔서 감사합니다. 그 (일부 경로를 편집) 도움이된다면 여기에 일부 로그는 다음과 같습니다

해결법

  1. ==============================

    1.나는 그것이 아무 말도하지 않는 나에게, 그래서 나는이 같은 로그를 확인하도록 제안, 그 전에 종료 코드를 보지 못했다 :

    나는 그것이 아무 말도하지 않는 나에게, 그래서 나는이 같은 로그를 확인하도록 제안, 그 전에 종료 코드를 보지 못했다 :

    yarn logs -applicationId <your_application_ID>
    
  2. ==============================

    2.로그에 따르면, 나는 그것이 사 측에서 오는 확신합니다. 당신은 해결 방법으로이 예외를 건너 실을 직접 수정할 수 있습니다. 내가 SRC 파일 시스템에 변경 오류 로그의 원인이 스레드로 실행, 나는이 문제를 충족하고 의한 원사의 src 코드를 수정 건너 뜁니다. 자세한 내용은, 당신은 참조 할 수 있습니다-변경하는 방법 - 투 - 수정 - 자원에-SRC-파일 시스템 - 문제

    로그에 따르면, 나는 그것이 사 측에서 오는 확신합니다. 당신은 해결 방법으로이 예외를 건너 실을 직접 수정할 수 있습니다. 내가 SRC 파일 시스템에 변경 오류 로그의 원인이 스레드로 실행, 나는이 문제를 충족하고 의한 원사의 src 코드를 수정 건너 뜁니다. 자세한 내용은, 당신은 참조 할 수 있습니다-변경하는 방법 - 투 - 수정 - 자원에-SRC-파일 시스템 - 문제

  3. from https://stackoverflow.com/questions/39820365/spark-jobs-failing-because-hdfs-is-caching-jars by cc-by-sa and MIT license