[HADOOP] 하둡 : 간격과 결합
HADOOP하둡 : 간격과 결합
저는 Hadoop에 대해 매우 익숙하며 현재 키가 간격 인 두 데이터 소스에 참여하려고합니다 (예 : [date-begin / date-end]). 예 :
입력 1 :
20091001-20091002 A
20091011-20091104 B
20080111-20091103 C
(...)
input2 :
20090902-20091003 D
20081015-20091204 E
20040011-20050101 F
(...)
key1이 key2와 겹치는 모든 레코드를 찾고 싶습니다. hadoop으로 가능합니까? 구현 예는 어디에서 찾을 수 있습니까?
감사.
해결법
-
==============================
1.솔루션은 Biostar에 게시되었습니다. http://biostar.stackexchange.com/questions/8821
솔루션은 Biostar에 게시되었습니다. http://biostar.stackexchange.com/questions/8821
-
==============================
2.필요한 것은 모두 hashCode () 및 equals ()가 원하는 작업을 수행하는 핵심 클래스라고 생각합니다. A가 B와 겹치는 (즉, Aequals (B) == true), B가 C와 겹치지 만 C가 A와 겹치지 않는 문제가 발생할 수 있다고 생각합니다. 이러한 equals () 메소드를 구현하면 아마도 이상한 행동을 취할 것입니다.
필요한 것은 모두 hashCode () 및 equals ()가 원하는 작업을 수행하는 핵심 클래스라고 생각합니다. A가 B와 겹치는 (즉, Aequals (B) == true), B가 C와 겹치지 만 C가 A와 겹치지 않는 문제가 발생할 수 있다고 생각합니다. 이러한 equals () 메소드를 구현하면 아마도 이상한 행동을 취할 것입니다.
기본적으로 세그먼트 트리 (예 : 간격 (p1.start, p1.end)의 모든 겹치는 간격 E)에 대해 쿼리를 찔러보고 p1.start 및 p1.end에 대해 찌르는 쿼리를 수행하는 것과 같은 작업을 수행하려고합니다.
하지만 기본적으로, 아니, 나는 당신의 질문에 대한 정답을 모른다. 그러나 "Segment tree"에 대한 쿼리가 시작될 수 있습니다.
from https://stackoverflow.com/questions/1832103/hadoop-intervals-and-join by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] INSERT OVERWRITE의 SELECT 쿼리가 결과를 반환하지 않는 경우 Hive 테이블이 덮어 쓰지 않도록하는 방법이 있습니까? (0) | 2019.07.31 |
---|---|
[HADOOP] 하이브 : 테이블 및 파티션 작성 기준 (0) | 2019.07.31 |
[HADOOP] mapreduce composite 키 샘플 - 원하는 출력을 표시하지 않습니다. (0) | 2019.07.31 |
[HADOOP] hadoop에서 json을 읽는 사용자 입력 형식 (0) | 2019.07.31 |
[HADOOP] Hadoop에서 BZip2 파일 읽기 (0) | 2019.07.31 |