Apache Spark 비대칭 데이터 처리

나는 함께 참여하고 싶은 두 개의 테이블을 가지고있다. 그 중 하나는 매우 나쁜 데이터 왜곡이 있습니다. 이것은 작업의 대부분이 하나의 파티션에서 이루어지기 때문에 스파크 작업이 병렬로 실행되지 않게합니다.

나는 그 내용을 듣고 읽었고, 분배를 증가시키기 위해 나의 열쇠를 소금으로 바르는 것을 구현하려고 노력했다. 12:45 초에 https://www.youtube.com/watch?v=WyfHUNnMutg을하고 싶습니다.

어떤 도움이나 조언을 부탁드립니다. 감사!

해결법

[HADOOP] 하이브 - LIKE 연산자 (0)	2019.06.15
[HADOOP] core-site.xml에 fs.default.name을 설정하면 HDFS가 Safemode로 설정됩니다. (0)	2019.06.15
[HADOOP] hadoop java.io.IOException : namenode를 실행하는 중 -format (0)	2019.06.15
[HADOOP] 원반 클러스터에서 실행중인 스파크 작업 java.io.FileNotFoundException : 파일이 마스터 노드에서 종료 되더라도 파일이 존재하지 않습니다. (0)	2019.06.15
[HADOOP] Hadoop MapReduce의 오류 (0)	2019.06.15