hadoop에서 Peg에 Regex 사용하기

CSV 파일에 사용자가 포함되어 있습니다 (tweetid, tweets, userid).

396124436476092416,"Think about the life you livin but don't think so hard it hurts Life is truly a gift, but at the same it is a curse",Obey_Jony09
396124436740317184,"“@BleacherReport: Halloween has given us this amazing Derrick Rose photo (via @amandakaschube, @ScottStrazzante) http://t.co/tM0wEugZR1” yes",Colten_stamkos
396124436845178880,"When's 12.4k gonna roll around",Matty_T_03

이제 트윗 ID로 정렬 된 '좋아하는'단어가 포함 된 모든 트윗을 반환하는 돼지 쿼리를 작성해야합니다.

이를 위해 다음 코드가 있습니다. A = '/ user / pig / tweets'를 (줄)으로로드하십시오. (tweetid : long, msg : chararray, userid (*, *) ') : B = FOREACH A FLATTEN (REGEX_EXTRACT_ALL (줄,'(. *) [, : chararray); C = msg에 의한 B 필터는 '. * favorite. *'와 일치합니다; D = tweetid에 의한 C 순서;

출력을 원하는 방식으로 분할 할 때 정규 표현식은 어떻게 작동합니까?

REGEX_EXTRACT 대신 REGEX_EXTRACT를 사용하여 시도해 보았습니다. 훨씬 간단하다는 것을 알았지 만 트윗을 추출하는 것 외에는 작동하지 않습니다.

B = FOREACH A FLATTEN (REGEX_EXTRACT (라인, '[, ": -] (. *) [", : -], 1)) AS (msg : chararray);

위의 별칭은 트윗을 가져옵니다. 그러나 tweet_id를 얻기 위해 REGEX_EXTRACT를 사용하면 원하는 O / P를 얻을 수 없습니다. B = FOREACH A GENERATE FLATTEN (REGEX_EXTRACT (줄, '(. *) [, ": -] ', 1)) AS (tweetid : long);

(396124554353197056,"Just saw @samantha0wen and @DakotaFears at the drake concert #waddup")
(396124554172432384,"@Yutika_Diwadkar I'm just so bright 😁")

(396124554609033216,"@TB23GMODE i don't know, i'm just saying, why you in GA though? that's where you from?")

(396124554805776385,"@MichaelThe_Lion me too 😒")

(396124552540852226,"Happy Halloween from us 2 @maddow &amp; @Rev_AlSharpton :) http://t.co/uC35lDFQYn")
grunt>

도와주세요.

해결법

==============================
1.주석을 달 수는 없지만 이것을보고 테스트 해 보면 정규 표현식의 인용 부호가 CSV의 인용 부호와 다른 것 같습니다.

주석을 달 수는 없지만 이것을보고 테스트 해 보면 정규 표현식의 인용 부호가 CSV의 인용 부호와 다른 것 같습니다.

"에서 csv

"정규식 코드에서.

트위터를 얻으려면 다음을 시도하십시오.
```
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT(line,'.*(,")',1))  AS (tweetid:long);
```

from https://stackoverflow.com/questions/32089571/using-regex-in-pig-in-hadoop by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] hbase mapreduce에 Delete 또는 Put 오류 전달 (0)	2019.07.03
[HADOOP] HADOOP 맵에서 Generics를 사용하면 문제를 줄일 수 있습니다. (0)	2019.07.03
[HADOOP] SPARK SQL은 지정된 파티션 경로가없는 경우 실패합니다. (0)	2019.07.03
[HADOOP] 스파크 데이터 세트 쓰기의 차이점 (0)	2019.07.03
[HADOOP] Hadoop wordcount 예제를 실행할 때 작업 토큰 파일을 찾을 수 없습니다. (0)	2019.07.03

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] hadoop에서 Peg에 Regex 사용하기

hadoop에서 Peg에 Regex 사용하기

해결법

1.주석을 달 수는 없지만 이것을보고 테스트 해 보면 정규 표현식의 인용 부호가 CSV의 인용 부호와 다른 것 같습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역