[HADOOP] PIG에서 GROUP과 COGROUP의 차이점은 무엇입니까?
HADOOPPIG에서 GROUP과 COGROUP의 차이점은 무엇입니까?
그룹이 다중 튜플로 작동하지 않는다는 것을 알았고 따라서 PIG에 COGROUP을 가지고있었습니다. 그러나, 오늘 확인하는 동안 GROUP 명령은 나를 위해 작동합니다. PIG-0.12.0을 사용하고 있습니다. 나의 명령과 산출물은 다음과 같다.
grunt> grpvar = GROUP C by $2, B by $2;
grunt> cogrpvar = COGROUP C by $2, B by $2;
grunt> describe grpvar;
grpvar: {group: chararray,C: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)},B: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)}}
grunt> describe cogrpvar;
cogrpvar: {group: chararray,C: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)},B: {(pid: int,pname: chararray,drug: chararray,gender: chararray,tot_amt: int)}}
GROUP이 이와 같이 작동 할 것으로 예상됩니까? GROUP과 COGROUP의 차이점은 무엇입니까?
해결법
-
==============================
1.네 그룹은 그런 식으로 일하기로되어 있습니다!
네 그룹은 그런 식으로 일하기로되어 있습니다!
설명서 (http://pig.apache.org/docs/r0.12.0/basic.html#group)에 따르면
그래서 이것은 단지 가독성을위한 것일 뿐이며, 둘 사이에는 차이가 없습니다.
from https://stackoverflow.com/questions/25028629/what-is-the-difference-between-group-and-cogroup-in-pig by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop의 여러 폴더에 쓰기? (0) | 2019.07.22 |
---|---|
[HADOOP] 새로운 데이터가 HDFS에 추가되었는지 어떻게 알 수 있습니까? (0) | 2019.07.22 |
[HADOOP] 스파크 예외 : 행을 쓰는 동안 작업을 수행하지 못했습니다. (0) | 2019.07.22 |
[HADOOP] 원사 - 클러스터 모드에서 Spark 드라이버 (및 YARN 컨테이너)에 대한 장애 조치 프로세스가 어떻게 작동하는지에 대한 리소스 / 문서 (0) | 2019.07.22 |
[HADOOP] java.lang.OutOfMemoryError : 큰 데이터 세트에 대해 새 원시 스레드를 만들 수 없습니다. (0) | 2019.07.22 |