별개의 커플 (쌍)을 필터링하는 방법

나는 돼지를 처음 사용합니다. 두 요소 사이에서 탭으로 구분 된 쌍을 생성하는 Pig 스크립트가 있습니다. 예를 들어, 한 줄에 한 쌍씩 :

John   Paul
Tom    Nik
Mark   Bill
Tom    Nik
Paul   John

중복 조합을 필터링해야합니다. DISTINCT를 사용하면 이중 "Tom Nik"항목을 필터링합니다. 결과는 다음과 같습니다.

John   Paul
Tom    Nik
Mark   Bill
Paul   John

이 접근 방식의 문제점은 내가 "John Paul"과 "Paul John"둘 다 남겨두고 내 목적에 따라 동일하게 처리해야한다는 것입니다. 순열 조합을 제거하는 방법이 있습니까?

해결법

[HADOOP] Map4 및 Reducer 로그를 파일에 추가하지 않는 Log4j RollingFileAppender (0)	2019.09.10
[HADOOP] context.write (k, v)에서 값을 출력하는 방법 (0)	2019.09.10
[HADOOP] 하둡 버퍼링 vs 스트리밍 (0)	2019.09.10
[HADOOP] HIVE JDBC ThriftHive $ Client.sendBase (0)	2019.09.10
[HADOOP] 다른 하이브 스크립트에서 하이브 스크립트를 실행할 수 있습니까? (0)	2019.09.10