[HADOOP] Hadoop Pig를 사용하여 여러 줄의 각 레코드가있는 텍스트 파일에서 데이터를로드합니까?
HADOOPHadoop Pig를 사용하여 여러 줄의 각 레코드가있는 텍스트 파일에서 데이터를로드합니까?
다음 형식의 데이터 파일이 있습니다.
U: john
T: 2011-03-03 12:12:12
L: san diego, CA
U: john
T: 2011-03-03 12:12:12
L: san diego, CA
Hadoop / pig / 분석을 위해이 파일을 읽는 가장 좋은 방법은 무엇입니까?
해결법
-
==============================
1.데이터 작성 방법을 제어 할 수있는 방법이 있습니까? 이것을 탭으로 분리하는 프로세스를 작성하면 상자 밖으로 나가는 데 도움이됩니다.
데이터 작성 방법을 제어 할 수있는 방법이 있습니까? 이것을 탭으로 분리하는 프로세스를 작성하면 상자 밖으로 나가는 데 도움이됩니다.
그렇지 않으면 사용자 정의 레코드 리더 (Pig 또는 Java MapReduce)를 작성하는 것이 유일한 옵션 일 수 있습니다. 둘 다 어렵지 않습니다.
from https://stackoverflow.com/questions/6726407/use-hadoop-pig-to-load-data-from-text-file-w-each-record-on-multiple-lines by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 두 개의 동일한 결합 키는 동일한 감속기에 도달하지 않습니다 (0) | 2019.08.11 |
---|---|
[HADOOP] MapReduce에서 globStatus를 사용하여 입력 파일 필터링 (0) | 2019.08.11 |
[HADOOP] EMR에 S3 폴더 나열 (0) | 2019.08.11 |
[HADOOP] mapreduce의 감속기 출력에서 r-00000 확장을 제거하는 방법 (0) | 2019.08.11 |
[HADOOP] HBase : 원자 적 '체크 행이 존재하지 않고 작성'조작 (0) | 2019.08.11 |