[HADOOP] 무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업
HADOOP무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업
나는 HDFS에 S3에서 1백93기가바이트 데이터를 복사하기 위해 노력하고있어. 나는 S3-distcp 및 하둡 distcp에 대해 다음 명령을 실행 해요 :
s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/
hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/
나는 마스터 노드에서 다음을 실행하고 또한 양에 대한 검사가 전송되는 유지하고있다. 그것은 시간이 걸렸다 그것을 통해 복사 한 후, 모든 것이 디스크 공간이 내 클러스터의 4 개 코어의 경우에 99.8 %로 표시되고, 삭제 및 하둡 작업이 영원히 실행됩니다. 최대한 빨리 명령을 실행으로,
16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%
이 시간 동안 데이터에 즉시 다음 사본을 인쇄됩니다. 그것은 모든 다시 시작됩니다.
16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%
난 여기 아무것도 실종? 어떤 도움에 감사드립니다.
또한 나는 내가 작업이 반복 때문에 실패하고 있는지 확인하기 위해 마스터 노드에서 로그 파일을 찾을 수있는 위치를 알고 싶습니다? 감사
해결법
-
==============================
1.내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.
내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.
나는 로그를 확인하면, 멀티 업로드 부분은 매우 긴 시간에 단계를 줄일합니다. 이 하둡 distcp 만 4 초를 취하면서 블록 (1백34메가바이트)에 업로드하면, S3-distcp 20 초 걸린다.
distcp와 S3-distcp의 차이는 S3-distcp는 HDFS에서 임시 파일을 만드는 동안 distcp는, (대상 파일 시스템에서) S3에 임시 파일을 생성합니다.
나는 아직도 멀티 업로드 성능이 distcp와 S3-distcp 훨씬 다른 이유, 조사 좋은 통찰력을 가진 몇 가지 중 하나가 여기에 기여할 수 있기를 희망하고있다.
-
==============================
2.당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.
당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.
하나 distcp 실행이 이름 바꾸기와 원자 distcp을하려고하는 경우, 즉 매 6 약 1 초 지연을 추가 할 것입니다 : 실제 성능 킬러는 삭제를 사본을 수행하여 S3 클라이언트에 모방하는 ()의 이름을 변경하다 데이터 -10MB. 후 업로드 지연의 16 전투기에 대한 그 134메가바이트이 (가) "가 이름 바꾸기입니다"로 갈 것
from https://stackoverflow.com/questions/38462480/s3-dist-cp-and-hadoop-distcp-job-infinitely-loopin-in-emr by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 아파치 스파크의 배포 문제 (클러스터 모드) 하이브로 (0) | 2019.10.19 |
---|---|
[HADOOP] 다른 하이브 테이블에서 하나 개의 하이브 테이블을 새로 고침 (0) | 2019.10.19 |
[HADOOP] / 빈 / SH : 행 62 :에 : 명령을 찾을 수 없습니다 (0) | 2019.10.19 |
[HADOOP] 선택 스파크 및 별명에 열을 추가 (0) | 2019.10.19 |
[HADOOP] 자바 코드에서 하이브를 site.xml의 위치를 찾기 (0) | 2019.10.19 |