복붙노트

[HADOOP] Apache Spark에서 Hadoop InputFormats를 사용하는 방법?

HADOOP

Apache Spark에서 Hadoop InputFormats를 사용하는 방법?

Hadoop에는 HDFS에서 이미지를 읽는 ImageInputFormat 클래스가 있습니다. Spark에서 InputFormat을 사용하는 방법?

여기 내 이미지 입력 ​​형식입니다 :

public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {

    @Override
    public ImageRecordReader createRecordReader(InputSplit split, 
                  TaskAttemptContext context) throws IOException, InterruptedException {
        return new ImageRecordReader();
    }

    @Override
    protected boolean isSplitable(JobContext context, Path filename) {
        return false;
    }
}  

해결법

  1. ==============================

    1.SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.

    SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.

    그 설명은 "임의의 InputFormat을 가진 Hadoop 파일을위한 RDD를 얻는다"라고 말한다.

    또한 Spark Documentation을 살펴보십시오.

  2. ==============================

    2.예, 스파크에 저장 될 모든 것은 rdd입니다.

    예, 스파크에 저장 될 모든 것은 rdd입니다.

    spark의 기본 저장소 수준은 (StorageLevel.MEMORY_ONLY)보다 공간 효율적인 MEMORY_ONLY_SER를 사용합니다. 스파크 문서> 스칼라 프로그래밍> RDD 지속성을 참조하십시오.

    데이터 크기가 커지면 성능에도 영향을 미칩니다.

  3. from https://stackoverflow.com/questions/21015641/how-to-use-hadoop-inputformats-in-apache-spark by cc-by-sa and MIT license