무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업

나는 HDFS에 S3에서 1백93기가바이트 데이터를 복사하기 위해 노력하고있어. 나는 S3-distcp 및 하둡 distcp에 대해 다음 명령을 실행 해요 :

s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/

hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/

나는 마스터 노드에서 다음을 실행하고 또한 양에 대한 검사가 전송되는 유지하고있다. 그것은 시간이 걸렸다 그것을 통해 복사 한 후, 모든 것이 디스크 공간이 내 클러스터의 4 개 코어의 경우에 99.8 %로 표시되고, 삭제 및 하둡 작업이 영원히 실행됩니다. 최대한 빨리 명령을 실행으로,

16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%

이 시간 동안 데이터에 즉시 다음 사본을 인쇄됩니다. 그것은 모든 다시 시작됩니다.

16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%

난 여기 아무것도 실종? 어떤 도움에 감사드립니다.

또한 나는 내가 작업이 반복 때문에 실패하고 있는지 확인하기 위해 마스터 노드에서 로그 파일을 찾을 수있는 위치를 알고 싶습니다? 감사

해결법

==============================
1.내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.

내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.

나는 로그를 확인하면, 멀티 업로드 부분은 매우 긴 시간에 단계를 줄일합니다. 이 하둡 distcp 만 4 초를 취하면서 블록 (1백34메가바이트)에 업로드하면, S3-distcp 20 초 걸린다.

distcp와 S3-distcp의 차이는 S3-distcp는 HDFS에서 임시 파일을 만드는 동안 distcp는, (대상 파일 시스템에서) S3에 임시 파일을 생성합니다.

나는 아직도 멀티 업로드 성능이 distcp와 S3-distcp 훨씬 다른 이유, 조사 좋은 통찰력을 가진 몇 가지 중 하나가 여기에 기여할 수 있기를 희망하고있다.
==============================
2.당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.

당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.

하나 distcp 실행이 이름 바꾸기와 원자 distcp을하려고하는 경우, 즉 매 6 약 1 초 지연을 추가 할 것입니다 : 실제 성능 킬러는 삭제를 사본을 수행하여 S3 클라이언트에 모방하는 ()의 이름을 변경하다 데이터 -10MB. 후 업로드 지연의 16 전투기에 대한 그 134메가바이트이 (가) "가 이름 바꾸기입니다"로 갈 것

from https://stackoverflow.com/questions/38462480/s3-dist-cp-and-hadoop-distcp-job-infinitely-loopin-in-emr by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 아파치 스파크의 배포 문제 (클러스터 모드) 하이브로 (0)	2019.10.19
[HADOOP] 다른 하이브 테이블에서 하나 개의 하이브 테이블을 새로 고침 (0)	2019.10.19
[HADOOP] / 빈 / SH : 행 62 :에 : 명령을 찾을 수 없습니다 (0)	2019.10.19
[HADOOP] 선택 스파크 및 별명에 열을 추가 (0)	2019.10.19
[HADOOP] 자바 코드에서 하이브를 site.xml의 위치를 찾기 (0)	2019.10.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] 무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업

무한 EMR에 loopin S3-distcp 및 하둡 distcp 작업

해결법

1.내 경우, 나는 S3하는 HDFS에서 하나의 큰 압축 된 파일을 복사하고, 하둡 distcp는 S3-distcp 후 훨씬 빠릅니다.

2.당신이 당신의 연구를위한 하둡 2.8.0을 선택하고, S3A 사용할 수있는 경우 : // 파일 시스템을, 당신은 지금 수집 파일 시스템 통계를 많이 잡을 수 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역