복붙노트

[HADOOP] 무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업

HADOOP

무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업

나는 HDFS에 S3에서 1백93기가바이트 데이터를 복사하기 위해 노력하고있어. 나는 S3-distcp 및 하둡 distcp에 대해 다음 명령을 실행 해요 :

s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/

hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/

나는 마스터 노드에서 다음을 실행하고 또한 양에 대한 검사가 전송되는 유지하고있다. 그것은 시간이 걸렸다 그것을 통해 복사 한 후, 모든 것이 디스크 공간이 내 클러스터의 4 개 코어의 경우에 99.8 %로 표시되고, 삭제 및 하둡 작업이 영원히 실행됩니다. 최대한 빨리 명령을 실행으로,

16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%

이 시간 동안 데이터에 즉시 다음 사본을 인쇄됩니다. 그것은 모든 다시 시작됩니다.

16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%

난 여기 아무것도 실종? 어떤 도움에 감사드립니다.

또한 나는 내가 작업이 반복 때문에 실패하고 있는지 확인하기 위해 마스터 노드에서 로그 파일을 찾을 수있는 위치를 알고 싶습니다? 감사

해결법

  1. ==============================

    1.내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.

    내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.

    나는 로그를 확인하면, 멀티 업로드 부분은 매우 긴 시간에 단계를 줄일합니다. 이 하둡 distcp 만 4 초를 취하면서 블록 (1백34메가바이트)에 업로드하면, S3-distcp 20 초 걸린다.

    distcp와 S3-distcp의 차이는 S3-distcp는 HDFS에서 임시 파일을 만드는 동안 distcp는, (대상 파일 시스템에서) S3에 임시 파일을 생성합니다.

    나는 아직도 멀티 업로드 성능이 distcp와 S3-distcp 훨씬 다른 이유, 조사 좋은 통찰력을 가진 몇 가지 중 하나가 여기에 기여할 수 있기를 희망하고있다.

  2. ==============================

    2.당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.

    당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.

    하나 distcp 실행이 이름 바꾸기와 원자 distcp을하려고하는 경우, 즉 매 6 약 1 초 지연을 추가 할 것입니다 : 실제 성능 킬러는 삭제를 사본을 수행하여 S3 클라이언트에 모방하는 ()의 이름을 변경하다 데이터 -10MB. 후 업로드 지연의 16 전투기에 대한 그 134메가바이트이 ​​(가) "가 이름 바꾸기입니다"로 갈 것

  3. from https://stackoverflow.com/questions/38462480/s3-dist-cp-and-hadoop-distcp-job-infinitely-loopin-in-emr by cc-by-sa and MIT license