복붙노트

[HADOOP] 하둡 : 간격과 결합

HADOOP

하둡 : 간격과 결합

저는 Hadoop에 대해 매우 익숙하며 현재 키가 간격 인 두 데이터 소스에 참여하려고합니다 (예 : [date-begin / date-end]). 예 :

입력 1 :

20091001-20091002    A
20091011-20091104    B
20080111-20091103    C
(...)

input2 :

20090902-20091003    D
20081015-20091204    E
20040011-20050101    F
(...)

key1이 key2와 겹치는 모든 레코드를 찾고 싶습니다. hadoop으로 가능합니까? 구현 예는 어디에서 찾을 수 있습니까?

감사.

해결법

  1. ==============================

    1.솔루션은 Biostar에 게시되었습니다. http://biostar.stackexchange.com/questions/8821

    솔루션은 Biostar에 게시되었습니다. http://biostar.stackexchange.com/questions/8821

  2. ==============================

    2.필요한 것은 모두 hashCode () 및 equals ()가 원하는 작업을 수행하는 핵심 클래스라고 생각합니다. A가 B와 겹치는 (즉, Aequals (B) == true), B가 C와 겹치지 만 C가 A와 겹치지 않는 문제가 발생할 수 있다고 생각합니다. 이러한 equals () 메소드를 구현하면 아마도 이상한 행동을 취할 것입니다.

    필요한 것은 모두 hashCode () 및 equals ()가 원하는 작업을 수행하는 핵심 클래스라고 생각합니다. A가 B와 겹치는 (즉, Aequals (B) == true), B가 C와 겹치지 만 C가 A와 겹치지 않는 문제가 발생할 수 있다고 생각합니다. 이러한 equals () 메소드를 구현하면 아마도 이상한 행동을 취할 것입니다.

    기본적으로 세그먼트 트리 (예 : 간격 (p1.start, p1.end)의 모든 겹치는 간격 E)에 대해 쿼리를 찔러보고 p1.start 및 p1.end에 대해 찌르는 쿼리를 수행하는 것과 같은 작업을 수행하려고합니다.

    하지만 기본적으로, 아니, 나는 당신의 질문에 대한 정답을 모른다. 그러나 "Segment tree"에 대한 쿼리가 시작될 수 있습니다.

  3. from https://stackoverflow.com/questions/1832103/hadoop-intervals-and-join by cc-by-sa and MIT license