[HADOOP] 돼지에 파일을로드하고이를 압축 해제
HADOOP돼지에 파일을로드하고이를 압축 해제
나는 돼지에 푸른 저장에서 파일의 무리를로드하고 있습니다. 파일 확장자에 .gz 모든 것이 잘 작동 그래서 만약 돼지 gzip을위한 기본 지원합니다.
문제는 오래된 파일은 .ZIP 확장 (I 그 수백만이)가 저장되어 있다는 점이다.
파일을로드와 gzip으로 .ZIP 치료하는 돼지를 알 수있는 방법이 있습니까?
해결법
-
==============================
1.난 정말 다른 옵션을 사용할 수 있습니다 모르겠지만 당신은 이런 식으로 뭔가를 시도 할 수 있습니다
난 정말 다른 옵션을 사용할 수 있습니다 모르겠지만 당신은 이런 식으로 뭔가를 시도 할 수 있습니다
그냥 샘플 예제는 하나 개의 파일에 대해, 당신은 당신의 필요에 따라 스크립트를 변경해야 할 수도 있습니다.
input.zip 1,john 2,cena 3,rock 4,sam test.sh #!/bin/bash FILE_NAME=$(echo $1 | cut -d '.' -f1) unzip "$1" tar czf "$FILE_NAME.gz" "$FILE_NAME" pig -x local -param PIG_INPUT_FILE="$FILE_NAME.gz" -f myscript.pig myscript.pig A = LOAD '$PIG_INPUT_FILE' USING PigStorage(','); DUMP A;
산출:
$ ./test.sh input.zip (1,john) (2,cena) (3,rock) (4,sam)
다른 가능한 옵션은 java.util.zip 라이브러리를 사용하여 GZ와 LoadFunc 옵션을 호출하는 우편을 변환하는 UDF를 작성해야 할 수도 있습니다. 나는이 옵션을 시도하지 않았다 그러나 당신이 원하는 경우에 당신은 시도를 제공 할 수 있습니다.
from https://stackoverflow.com/questions/26239338/loading-files-into-pig-and-decompressing-them by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브 작업은 맵리 듀스 오류 발생 : 로컬 호스트에 hmaster / 127.0.0.1에서 전화 : 44849 연결 예외에 실패 (0) | 2019.10.15 |
---|---|
[HADOOP] 어떻게 HDFS에 빈 브로 파일의 커밋 방지하기 위해? (0) | 2019.10.15 |
[HADOOP] 수 하둡-1.2.1에서 실행되는 하둡-2.2.0에서 작성하는 하둡을 programm? (0) | 2019.10.15 |
[HADOOP] 문제 하이브 AvroSerDe tblProperties 최대 길이 (0) | 2019.10.15 |
[HADOOP] 내 맵리 듀스 프로그램은 제로 출력을 생성 (0) | 2019.10.15 |