Apache Spark에서 Hadoop InputFormats를 사용하는 방법?

Hadoop에는 HDFS에서 이미지를 읽는 ImageInputFormat 클래스가 있습니다. Spark에서 InputFormat을 사용하는 방법?

여기 내 이미지 입력 형식입니다 :

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}

해결법

==============================
1.SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.

SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.

그 설명은 "임의의 InputFormat을 가진 Hadoop 파일을위한 RDD를 얻는다"라고 말한다.

또한 Spark Documentation을 살펴보십시오.
==============================
2.예, 스파크에 저장 될 모든 것은 rdd입니다.

예, 스파크에 저장 될 모든 것은 rdd입니다.

spark의 기본 저장소 수준은 (StorageLevel.MEMORY_ONLY)보다 공간 효율적인 MEMORY_ONLY_SER를 사용합니다. 스파크 문서> 스칼라 프로그래밍> RDD 지속성을 참조하십시오.

데이터 크기가 커지면 성능에도 영향을 미칩니다.

from https://stackoverflow.com/questions/21015641/how-to-use-hadoop-inputformats-in-apache-spark by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Hive는 파티션 URL을 보여주기 위해 파티션을 설명합니다. (0)	2019.07.25
[HADOOP] REGEXP_REPLACE 그룹 캡처 (0)	2019.07.25
[HADOOP] Spark를 사용하여 Hadoop HDFS 디렉토리의 모든 파일을 나열 하시겠습니까? (0)	2019.07.25
[HADOOP] 버그 수정 후 여전히 "SCDynamicStore에서 영역 정보를로드 할 수 없습니다." (0)	2019.07.25
[HADOOP] Hive에 문자열 데이터 형식의 최대 크기가 있습니까? (0)	2019.07.25

복붙노트

[HADOOP] Apache Spark에서 Hadoop InputFormats를 사용하는 방법?

Apache Spark에서 Hadoop InputFormats를 사용하는 방법?

해결법

1.SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.

2.예, 스파크에 저장 될 모든 것은 rdd입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바