[HADOOP] Apache Spark에서 Hadoop InputFormats를 사용하는 방법?
HADOOPApache Spark에서 Hadoop InputFormats를 사용하는 방법?
Hadoop에는 HDFS에서 이미지를 읽는 ImageInputFormat 클래스가 있습니다. Spark에서 InputFormat을 사용하는 방법?
여기 내 이미지 입력 형식입니다 :
public class ImageInputFormat extends FileInputFormat<Text, ImageWritable> {
@Override
public ImageRecordReader createRecordReader(InputSplit split,
TaskAttemptContext context) throws IOException, InterruptedException {
return new ImageRecordReader();
}
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
}
해결법
-
==============================
1.SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.
SparkContext에는 hadoopFile이라는 메서드가 있습니다. org.apache.hadoop.mapred.InputFormat 인터페이스를 구현하는 클래스를 허용합니다.
그 설명은 "임의의 InputFormat을 가진 Hadoop 파일을위한 RDD를 얻는다"라고 말한다.
또한 Spark Documentation을 살펴보십시오.
-
==============================
2.예, 스파크에 저장 될 모든 것은 rdd입니다.
예, 스파크에 저장 될 모든 것은 rdd입니다.
spark의 기본 저장소 수준은 (StorageLevel.MEMORY_ONLY)보다 공간 효율적인 MEMORY_ONLY_SER를 사용합니다. 스파크 문서> 스칼라 프로그래밍> RDD 지속성을 참조하십시오.
데이터 크기가 커지면 성능에도 영향을 미칩니다.
from https://stackoverflow.com/questions/21015641/how-to-use-hadoop-inputformats-in-apache-spark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hive는 파티션 URL을 보여주기 위해 파티션을 설명합니다. (0) | 2019.07.25 |
---|---|
[HADOOP] REGEXP_REPLACE 그룹 캡처 (0) | 2019.07.25 |
[HADOOP] Spark를 사용하여 Hadoop HDFS 디렉토리의 모든 파일을 나열 하시겠습니까? (0) | 2019.07.25 |
[HADOOP] 버그 수정 후 여전히 "SCDynamicStore에서 영역 정보를로드 할 수 없습니다." (0) | 2019.07.25 |
[HADOOP] Hive에 문자열 데이터 형식의 최대 크기가 있습니까? (0) | 2019.07.25 |