dataFrameWriter partition으로 데이터를 섞습니까?

한 가지 방식으로 데이터를 분할했으며 다른 데이터로 분할하고 싶습니다. 따라서 기본적으로 다음과 같습니다.

sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")

이 컨텍스트에서 파티션은 HDFS의 디렉토리를 의미하고 동일한 파티션의 데이터는 동일한 노드에 있어야 할 필요가 없기 때문에 이것이 셔플을 유발하거나 모든 데이터가 로컬로 다시 파티션 될 것인지 궁금합니다. HDFS의 동일한 디렉토리.

해결법

[HADOOP] wordcount hadoop 출력 결과를 다시 정렬하고 값별로 정렬하는 방법 (0)	2019.09.16
[HADOOP] 인수로 전달하지 않고 Hive UDF 내의 하이브 변수에 액세스하는 방법 (0)	2019.09.16
[HADOOP] 하둡 보조 네임 노드를 기본 네임 노드와 어떻게 분리합니까? (0)	2019.09.16
[HADOOP] Hadoop에서 글로벌 순차 번호 생성기를 공유하는 방법은 무엇입니까? (0)	2019.09.16
[HADOOP] Spark 애플리케이션을 실행하는 동안 java.lang.ClassNotFoundException 가져 오기 (0)	2019.09.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`