하둡 : 간격과 결합

저는 Hadoop에 대해 매우 익숙하며 현재 키가 간격 인 두 데이터 소스에 참여하려고합니다 (예 : [date-begin / date-end]). 예 :

입력 1 :

20091001-20091002    A
20091011-20091104    B
20080111-20091103    C
(...)

input2 :

20090902-20091003    D
20081015-20091204    E
20040011-20050101    F
(...)

key1이 key2와 겹치는 모든 레코드를 찾고 싶습니다. hadoop으로 가능합니까? 구현 예는 어디에서 찾을 수 있습니까?

감사.

해결법

==============================
1.솔루션은 Biostar에 게시되었습니다. http://biostar.stackexchange.com/questions/8821

솔루션은 Biostar에 게시되었습니다. http://biostar.stackexchange.com/questions/8821
==============================
2.필요한 것은 모두 hashCode () 및 equals ()가 원하는 작업을 수행하는 핵심 클래스라고 생각합니다. A가 B와 겹치는 (즉, Aequals (B) == true), B가 C와 겹치지 만 C가 A와 겹치지 않는 문제가 발생할 수 있다고 생각합니다. 이러한 equals () 메소드를 구현하면 아마도 이상한 행동을 취할 것입니다.

필요한 것은 모두 hashCode () 및 equals ()가 원하는 작업을 수행하는 핵심 클래스라고 생각합니다. A가 B와 겹치는 (즉, Aequals (B) == true), B가 C와 겹치지 만 C가 A와 겹치지 않는 문제가 발생할 수 있다고 생각합니다. 이러한 equals () 메소드를 구현하면 아마도 이상한 행동을 취할 것입니다.

기본적으로 세그먼트 트리 (예 : 간격 (p1.start, p1.end)의 모든 겹치는 간격 E)에 대해 쿼리를 찔러보고 p1.start 및 p1.end에 대해 찌르는 쿼리를 수행하는 것과 같은 작업을 수행하려고합니다.

하지만 기본적으로, 아니, 나는 당신의 질문에 대한 정답을 모른다. 그러나 "Segment tree"에 대한 쿼리가 시작될 수 있습니다.

[HADOOP] INSERT OVERWRITE의 SELECT 쿼리가 결과를 반환하지 않는 경우 Hive 테이블이 덮어 쓰지 않도록하는 방법이 있습니까? (0)	2019.07.31
[HADOOP] 하이브 : 테이블 및 파티션 작성 기준 (0)	2019.07.31
[HADOOP] mapreduce composite 키 샘플 - 원하는 출력을 표시하지 않습니다. (0)	2019.07.31
[HADOOP] hadoop에서 json을 읽는 사용자 입력 형식 (0)	2019.07.31
[HADOOP] Hadoop에서 BZip2 파일 읽기 (0)	2019.07.31