복붙노트

[HADOOP] 돼지에서 csv 읽기, csv 파일에는 인용 된 쉼표가 들어 있습니다.

HADOOP

돼지에서 csv 읽기, csv 파일에는 인용 된 쉼표가 들어 있습니다.

내 데이터는 다음과 같습니다.

asdf, asdf, "adsf,qwef", asdf 

돼지에서 그 데이터를 읽을 때

PigStorage(',')

"adsf, qwef"를 두 개의 데이터로 저장하고 다음과 같이 저장합니다.

{ "adsf } { qwef" } 

따옴표를 단일 데이터로 취급하고 싶습니다.

어떻게해야합니까?

이렇게하기 위해 돼지 스크립트를 작성하려고합니다.

해결법

  1. ==============================

    1.CSVLoader를 사용해야합니다.

    CSVLoader를 사용해야합니다.

    data = LOAD 'my.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage() 
        AS (...);
    

    그곳은 ... 식별자입니다.

    참고 : Piggybank를 먼저 등록해야합니다. 여기 세부 정보 : https://cwiki.apache.org/confluence/display/PIG/PiggyBank

  2. from https://stackoverflow.com/questions/17816078/csv-reading-in-pig-csv-file-contains-quoted-comma by cc-by-sa and MIT license