복붙노트

[SCALA] GZIP 형식은 스파크에서 지원됩니까?

SCALA

GZIP 형식은 스파크에서 지원됩니까?

빅 데이터 프로젝트를 위해, 나는 반복되는 워크로드를위한 인 - 메모리 계산과 같은 몇 가지 좋은 기능을 가지고 사용하는 스파크에 계획입니다. 그것은 로컬 파일 또는 HDFS 위에 실행할 수 있습니다.

그러나 공식 문서에서, 나는 gzip으로 압축 파일을 처리하는 방법에 대한 어떤 힌트를 찾을 수 없습니다. 실제로,에서 .gz 파일 대신 압축이 풀린 파일을 처리하는 것은 매우 효율적이 될 수 있습니다.

수동에 .gz 파일을 읽을 때 이미 자동으로 수행 gzip으로 압축 된 파일의 읽기 구현하거나 압축을 해제한다 수있는 방법이 있습니까?

해결법

  1. ==============================

    1.스파크에서 스칼라는 "하둡 데이터 집합"에 대한 가이드의 섹션을 프로그래밍 :

    스파크에서 스칼라는 "하둡 데이터 집합"에 대한 가이드의 섹션을 프로그래밍 :

    이 하둡에서와 같이 gzip으로 입력 파일에 대한 지원은 동일하게 작동합니다. 자동 압축 해제 gzip으로 압축 된 파일을 읽어야 예를 들어, sc.textFile ( "myFile.gz")의 경우 (TEXTFILE ()를 실제로 지원하는 하둡의 TextInputFormat 사용하여 구현 파일을 gzip을을 압축).

    코멘트에 닉 - chammas @에서 언급 한 바와 같이 :

  2. from https://stackoverflow.com/questions/16302385/is-gzip-format-supported-in-spark by cc-by-sa and MIT license