[HADOOP] 돼지에서 csv 읽기, csv 파일에는 인용 된 쉼표가 들어 있습니다.
HADOOP돼지에서 csv 읽기, csv 파일에는 인용 된 쉼표가 들어 있습니다.
내 데이터는 다음과 같습니다.
asdf, asdf, "adsf,qwef", asdf
돼지에서 그 데이터를 읽을 때
PigStorage(',')
"adsf, qwef"를 두 개의 데이터로 저장하고 다음과 같이 저장합니다.
{ "adsf } { qwef" }
따옴표를 단일 데이터로 취급하고 싶습니다.
어떻게해야합니까?
이렇게하기 위해 돼지 스크립트를 작성하려고합니다.
해결법
-
==============================
1.CSVLoader를 사용해야합니다.
CSVLoader를 사용해야합니다.
data = LOAD 'my.csv' USING org.apache.pig.piggybank.storage.CSVExcelStorage() AS (...);
그곳은 ... 식별자입니다.
참고 : Piggybank를 먼저 등록해야합니다. 여기 세부 정보 : https://cwiki.apache.org/confluence/display/PIG/PiggyBank
from https://stackoverflow.com/questions/17816078/csv-reading-in-pig-csv-file-contains-quoted-comma by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] Hadoop 가상 분산 모드 - 데이터 노드 및 작업 추적기가 시작되지 않음 (0) | 2019.06.10 |
---|---|
[HADOOP] EMR에 열린 파일이 너무 많습니다. (0) | 2019.06.10 |
[HADOOP] Apache Oozie가 ShareLib을로드하지 못했습니다. (0) | 2019.06.10 |
[HADOOP] Windows의 Hadoop. YARN이 java.lang.UnsatisfiedLinkError로 시작하지 못함 (0) | 2019.06.10 |
[HADOOP] 기존 필드에 의한 파티션 하이브 테이블? (0) | 2019.06.10 |