복붙노트

[HADOOP] PIG에서 GROUP과 COGROUP의 차이점은 무엇입니까?

HADOOP

PIG에서 GROUP과 COGROUP의 차이점은 무엇입니까?

그룹이 다중 튜플로 작동하지 않는다는 것을 알았고 따라서 PIG에 COGROUP을 가지고있었습니다. 그러나, 오늘 확인하는 동안 GROUP 명령은 나를 위해 작동합니다. PIG-0.12.0을 사용하고 있습니다. 나의 명령과 산출물은 다음과 같다.

grunt> grpvar = GROUP C by $2, B by $2;
grunt> cogrpvar = COGROUP C by $2, B by $2;
grunt> describe grpvar;

grpvar: {group: chararray,C: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)},B: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)}}

grunt> describe cogrpvar;

cogrpvar: {group: chararray,C: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)},B: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)}}

GROUP이 이와 같이 작동 할 것으로 예상됩니까? GROUP과 COGROUP의 차이점은 무엇입니까?

해결법

  1. ==============================

    1.네 그룹은 그런 식으로 일하기로되어 있습니다!

    네 그룹은 그런 식으로 일하기로되어 있습니다!

    설명서 (http://pig.apache.org/docs/r0.12.0/basic.html#group)에 따르면

    그래서 이것은 단지 가독성을위한 것일 뿐이며, 둘 사이에는 차이가 없습니다.

  2. from https://stackoverflow.com/questions/25028629/what-is-the-difference-between-group-and-cogroup-in-pig by cc-by-sa and MIT license