스파크 - 2 개 PairRDD 요소를 결합

안녕하세요이 개 요소가 JavaRDDPair 있습니다 :

("TypeA", List<jsonTypeA>),

("TypeB", List<jsonTypeB>)

나는 형의 1 쌍에 2 쌍을 결합해야합니다 :

("TypeA_B", List<jsonCombinedAPlusB>)

나는 각 2 jsons (A 형 1과 B 형의 1) 나는에 가입 할 수 있습니다 몇 가지 일반적인 필드가 1 개 목록에이 목록을 결합해야합니다.

타입 A의리스트가 다른 것보다 상당히 작다 고려하고, 그 결과리스트 형식의리스트 A.만큼 작아야하므로 조인은 내부되어야

이를위한 가장 효율적인 방법은 무엇입니까?

해결법

[HADOOP] 왜 RunJar는 jar 파일을 압축 해제합니까? (0)	2019.10.05
[HADOOP] HBase를가 Pyspark를 사용하여 상호 작용하는 최선의 방법은 무엇입니까 (0)	2019.10.05
[HADOOP] 내 간단한 스파크 응용 프로그램이 너무 느리게 작동합니다 이유는 무엇입니까? (0)	2019.10.05
[HADOOP] 스크립트를 실행하는 동안 하이브에 오류가 (0)	2019.10.05
[HADOOP] 구축을위한 외부 의존성 통과 수계 미스트를 스파크를 제출 (0)	2019.10.05