복붙노트

[HADOOP] 단어를 기준으로 문자열 필터링

HADOOP

단어를 기준으로 문자열 필터링

나는 돼지 일자리가 있는데, 그 곳에서 단어를 찾아 데이터를 필터링해야하는데,

다음은 스 니펫입니다.

A = LOAD '/home/user/filename' USING PigStorage(',');
B = FOREACH A GENERATE $27,$38;
C = FILTER B BY ( $1 ==  '*Word*');
STORE C INTO '/home/user/out1' USING PigStorage();

오류는 C를 찾는 중에 3 행에 있으며, 나는 또한 사용을 시도했다.

C = FILTER B BY $1 MATCHES '*WORD*'  

또한

C = FILTER B BY $1 MATCHES '\\w+WORD\\w+'  

해결법

  1. ==============================

    1.MATCHES는 정규식을 사용합니다. 너는해야한다..... * WORD. * '.

    MATCHES는 정규식을 사용합니다. 너는해야한다..... * WORD. * '.

    다음은 'apache'라는 단어를 찾는 예제입니다.

  2. from https://stackoverflow.com/questions/7445832/filter-a-string-on-the-basis-of-a-word by cc-by-sa and MIT license