[HADOOP] dataFrameWriter partition으로 데이터를 섞습니까?
HADOOPdataFrameWriter partition으로 데이터를 섞습니까?
한 가지 방식으로 데이터를 분할했으며 다른 데이터로 분할하고 싶습니다. 따라서 기본적으로 다음과 같습니다.
sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")
이 컨텍스트에서 파티션은 HDFS의 디렉토리를 의미하고 동일한 파티션의 데이터는 동일한 노드에 있어야 할 필요가 없기 때문에 이것이 셔플을 유발하거나 모든 데이터가 로컬로 다시 파티션 될 것인지 궁금합니다. HDFS의 동일한 디렉토리.
해결법
-
==============================
1.parititionBy와 bucketBy는 데이터를 섞지 않습니다. 데이터를 먼저 다시 분할하는 것이 좋은 생각 일 수 있습니다.
parititionBy와 bucketBy는 데이터를 섞지 않습니다. 데이터를 먼저 다시 분할하는 것이 좋은 생각 일 수 있습니다.
df.repartition(...).write.partitionBy(...)
그렇지 않으면 출력 파일 수는 파티션 수 * 파티션 열의 카디널리티에 의해 제한됩니다.
from https://stackoverflow.com/questions/39805645/does-dataframewriter-partitionby-shuffle-the-data by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] wordcount hadoop 출력 결과를 다시 정렬하고 값별로 정렬하는 방법 (0) | 2019.09.16 |
---|---|
[HADOOP] 인수로 전달하지 않고 Hive UDF 내의 하이브 변수에 액세스하는 방법 (0) | 2019.09.16 |
[HADOOP] 하둡 보조 네임 노드를 기본 네임 노드와 어떻게 분리합니까? (0) | 2019.09.16 |
[HADOOP] Hadoop에서 글로벌 순차 번호 생성기를 공유하는 방법은 무엇입니까? (0) | 2019.09.16 |
[HADOOP] Spark 애플리케이션을 실행하는 동안 java.lang.ClassNotFoundException 가져 오기 (0) | 2019.09.16 |