[HADOOP] 감속기로 GZIP을 사용하여 손상된 데이터를 생성
HADOOP감속기로 GZIP을 사용하여 손상된 데이터를 생성
언제이 같은 스트리밍 하둡을 실행합니다 :
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar
-Dmapred.reduce.tasks=16
-input foo
-output bar
-mapper "python zot.py"
-reducer gzip
나는, 아아, 부패 출력 디렉토리 (16 개) 파일을 가져 :
$ hadoop fs -get bar/part-00012
$ file part-00012
gzip compressed data, from Unix
$ cat part-00012 | gunzip >/dev/null
gzip: stdin: invalid compressed data--format violated
나는 고양이 부분-00012의 출력을 검사 | 나는 다소 잘하고 아주 잘못 보이는 부분을 본 후 풀어서는 사망 시각 해제 (gunzip).
추신. 나는 내 데이터 세트가 진정한 = mapred.output.compress를 사용하여 적은 수의 gzip으로 압축 된 파일로 분할 할 수 있습니다 알고 있습니다.
PPS. 이 폭스 바겐을위한 것입니다.
해결법
-
==============================
1.당신은 jobconf 설정에서 직접 output.compress 사용할 수 있습니다. gzip을 통해 보낼 필요가 없습니다. 다른 질문에 대한 내 대답을 참조하십시오.
당신은 jobconf 설정에서 직접 output.compress 사용할 수 있습니다. gzip을 통해 보낼 필요가 없습니다. 다른 질문에 대한 내 대답을 참조하십시오.
from https://stackoverflow.com/questions/23767971/using-gzip-as-a-reducer-produces-corrupt-data by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 설치 및 구성에 하둡 문제 (0) | 2019.10.08 |
---|---|
[HADOOP] 어떻게 R을 통해 HDFS에 액세스 할 수? (0) | 2019.10.08 |
[HADOOP] 저장 및 하둡 작업의 복잡한 쓰기 가능한 값을 읽어 (0) | 2019.10.08 |
[HADOOP] 하둡의 기본 정렬을 무시하는 방법 (0) | 2019.10.07 |
[HADOOP] 피닉스 JDBC 작동, 예외없이와 붙어하지 않습니다 (0) | 2019.10.07 |