[SCALA] GZIP 형식은 스파크에서 지원됩니까?
SCALAGZIP 형식은 스파크에서 지원됩니까?
빅 데이터 프로젝트를 위해, 나는 반복되는 워크로드를위한 인 - 메모리 계산과 같은 몇 가지 좋은 기능을 가지고 사용하는 스파크에 계획입니다. 그것은 로컬 파일 또는 HDFS 위에 실행할 수 있습니다.
그러나 공식 문서에서, 나는 gzip으로 압축 파일을 처리하는 방법에 대한 어떤 힌트를 찾을 수 없습니다. 실제로,에서 .gz 파일 대신 압축이 풀린 파일을 처리하는 것은 매우 효율적이 될 수 있습니다.
수동에 .gz 파일을 읽을 때 이미 자동으로 수행 gzip으로 압축 된 파일의 읽기 구현하거나 압축을 해제한다 수있는 방법이 있습니까?
해결법
-
==============================
1.스파크에서 스칼라는 "하둡 데이터 집합"에 대한 가이드의 섹션을 프로그래밍 :
스파크에서 스칼라는 "하둡 데이터 집합"에 대한 가이드의 섹션을 프로그래밍 :
이 하둡에서와 같이 gzip으로 입력 파일에 대한 지원은 동일하게 작동합니다. 자동 압축 해제 gzip으로 압축 된 파일을 읽어야 예를 들어, sc.textFile ( "myFile.gz")의 경우 (TEXTFILE ()를 실제로 지원하는 하둡의 TextInputFormat 사용하여 구현 파일을 gzip을을 압축).
코멘트에 닉 - chammas @에서 언급 한 바와 같이 :
from https://stackoverflow.com/questions/16302385/is-gzip-format-supported-in-spark by cc-by-sa and MIT license
'SCALA' 카테고리의 다른 글
[SCALA] 어떻게 반사를 사용하여 스칼라 객체 메소드를 호출합니까? (0) | 2019.11.08 |
---|---|
[SCALA] 스칼라의지도를 반전하는 우아한 방법 (0) | 2019.11.08 |
[SCALA] 어떻게 스칼라 특성은 자바 바이트 코드로 컴파일? (0) | 2019.11.08 |
[SCALA] 왜 배열의 불변하지만,리스트는 공변? (0) | 2019.11.08 |
[SCALA] 스칼라 일반적인 방법 - T 없음 ClassTag 가능 (0) | 2019.11.08 |