기존 마루 파일에 데이터를 추가하는 방법

ParquetWriter를 만들고 레코드를 쓰려면 다음 코드를 사용하고 있습니다.

ParquetWriter<GenericRecord> parquetWriter = new ParquetWriter(path, writeSupport, CompressionCodecName.SNAPPY, BLOCK_SIZE, PAGE_SIZE);

final GenericRecord record = new GenericData.Record(avroSchema);

parquetWriter.write(record);

그러나 지정된 경로에있는 새 파일 만 만들 수 있습니다. 기존 마루 파일 (경로에)에 데이터를 추가하는 방법이 있습니까? 캐리킹 쪽모작 필자는 내 경우에 실현 가능하지 않습니다.

해결법

==============================
1.append라는 Spark API SaveMode가 있습니다 : https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html 여러분의 문제를 해결할 것으로 믿습니다.

append라는 Spark API SaveMode가 있습니다 : https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html 여러분의 문제를 해결할 것으로 믿습니다.

사용 예 :
```
df.write.mode('append').parquet('parquet_data_file')
```
==============================
2.마루는 원주 형 파일이며, 모든 열을 함께 쓰는 것을 최적화합니다. 수정이 필요한 경우 파일을 다시 작성해야합니다.

마루는 원주 형 파일이며, 모든 열을 함께 쓰는 것을 최적화합니다. 수정이 필요한 경우 파일을 다시 작성해야합니다.

출처 : Wiki

열 기반 데이터베이스는 열의 모든 값을 함께 직렬화 한 다음 다음 열의 값 등을 직렬화합니다. 예제 테이블에서 데이터는 다음과 같은 방식으로 저장됩니다.
```
10:001,12:002,11:003,22:004;
Smith:001,Jones:002,Johnson:003,Jones:004;
Joe:001,Mary:002,Cathy:003,Bob:004;
40000:001,50000:002,44000:003,55000:004;
```
일부 링크

https://en.wikipedia.org/wiki/Column-oriented_DBMS

https://parquet.apache.org/

from https://stackoverflow.com/questions/39234391/how-to-append-data-to-an-existing-parquet-file by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Hadoop 0.95 또는 1.75에서 적절한 수의 감소가있는 이유는 무엇입니까? (0)	2019.06.24
[HADOOP] HDFS에 대한 원격 액세스는 Kubernets에 있습니다. (0)	2019.06.24
[HADOOP] JRE를 사용하여 sqoop을 실행하는 것처럼 보이지만 JAVA_HOME은 JDK로 설정됩니다. (0)	2019.06.23
[HADOOP] 다른 폴더에 출력 작성하기 hadoop (0)	2019.06.23
[HADOOP] RDD가 Spark의 메모리에 맞지 않으면 어떻게됩니까? [복제] (0)	2019.06.23

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] 기존 마루 파일에 데이터를 추가하는 방법

기존 마루 파일에 데이터를 추가하는 방법

해결법

1.append라는 Spark API SaveMode가 있습니다 : https://spark.apache.org/docs/1.4.0/api/java/org/apache/spark/sql/SaveMode.html 여러분의 문제를 해결할 것으로 믿습니다.

2.마루는 원주 형 파일이며, 모든 열을 함께 쓰는 것을 최적화합니다. 수정이 필요한 경우 파일을 다시 작성해야합니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역