[HADOOP] 돼지에 파일을로드하고이를 압축 해제

2019. 10. 15. 10:06

cnpnote

HADOOP

돼지에 파일을로드하고이를 압축 해제

나는 돼지에 푸른 저장에서 파일의 무리를로드하고 있습니다. 파일 확장자에 .gz 모든 것이 잘 작동 그래서 만약 돼지 gzip을위한 기본 지원합니다.

문제는 오래된 파일은 .ZIP 확장 (I 그 수백만이)가 저장되어 있다는 점이다.

파일을로드와 gzip으로 .ZIP 치료하는 돼지를 알 수있는 방법이 있습니까?

해결법

==============================
1.난 정말 다른 옵션을 사용할 수 있습니다 모르겠지만 당신은 이런 식으로 뭔가를 시도 할 수 있습니다

난 정말 다른 옵션을 사용할 수 있습니다 모르겠지만 당신은 이런 식으로 뭔가를 시도 할 수 있습니다

그냥 샘플 예제는 하나 개의 파일에 대해, 당신은 당신의 필요에 따라 스크립트를 변경해야 할 수도 있습니다.
```
input.zip
1,john
2,cena
3,rock
4,sam

test.sh
#!/bin/bash
FILE_NAME=$(echo $1 | cut -d '.' -f1)
unzip  "$1"
tar czf "$FILE_NAME.gz" "$FILE_NAME"
pig -x local -param PIG_INPUT_FILE="$FILE_NAME.gz" -f myscript.pig

myscript.pig
A = LOAD '$PIG_INPUT_FILE' USING PigStorage(',');
DUMP A;
```
산출:
```
$ ./test.sh input.zip

(1,john)
(2,cena)
(3,rock)
(4,sam)
```
다른 가능한 옵션은 java.util.zip 라이브러리를 사용하여 GZ와 LoadFunc 옵션을 호출하는 우편을 변환하는 UDF를 작성해야 할 수도 있습니다. 나는이 옵션을 시도하지 않았다 그러나 당신이 원하는 경우에 당신은 시도를 제공 할 수 있습니다.

from https://stackoverflow.com/questions/26239338/loading-files-into-pig-and-decompressing-them by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 하이브 작업은 맵리 듀스 오류 발생 : 로컬 호스트에 hmaster / 127.0.0.1에서 전화 : 44849 연결 예외에 실패 (0)	2019.10.15
[HADOOP] 어떻게 HDFS에 빈 브로 파일의 커밋 방지하기 위해? (0)	2019.10.15
[HADOOP] 수 하둡-1.2.1에서 실행되는 하둡-2.2.0에서 작성하는 하둡을 programm? (0)	2019.10.15
[HADOOP] 문제 하이브 AvroSerDe tblProperties 최대 길이 (0)	2019.10.15
[HADOOP] 내 맵리 듀스 프로그램은 제로 출력을 생성 (0)	2019.10.15

,

티스토리툴바