[HADOOP] Hadoop Pig를 사용하여 여러 줄의 각 레코드가있는 텍스트 파일에서 데이터를로드합니까?

2019. 8. 11. 10:55

cnpnote

HADOOP

Hadoop Pig를 사용하여 여러 줄의 각 레코드가있는 텍스트 파일에서 데이터를로드합니까?

다음 형식의 데이터 파일이 있습니다.

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

Hadoop / pig / 분석을 위해이 파일을 읽는 가장 좋은 방법은 무엇입니까?

해결법

==============================
1.데이터 작성 방법을 제어 할 수있는 방법이 있습니까? 이것을 탭으로 분리하는 프로세스를 작성하면 상자 밖으로 나가는 데 도움이됩니다.

데이터 작성 방법을 제어 할 수있는 방법이 있습니까? 이것을 탭으로 분리하는 프로세스를 작성하면 상자 밖으로 나가는 데 도움이됩니다.

그렇지 않으면 사용자 정의 레코드 리더 (Pig 또는 Java MapReduce)를 작성하는 것이 유일한 옵션 일 수 있습니다. 둘 다 어렵지 않습니다.

from https://stackoverflow.com/questions/6726407/use-hadoop-pig-to-load-data-from-text-file-w-each-record-on-multiple-lines by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 두 개의 동일한 결합 키는 동일한 감속기에 도달하지 않습니다 (0)	2019.08.11
[HADOOP] MapReduce에서 globStatus를 사용하여 입력 파일 필터링 (0)	2019.08.11
[HADOOP] EMR에 S3 폴더 나열 (0)	2019.08.11
[HADOOP] mapreduce의 감속기 출력에서 r-00000 확장을 제거하는 방법 (0)	2019.08.11
[HADOOP] HBase : 원자 적 '체크 행이 존재하지 않고 작성'조작 (0)	2019.08.11

,

티스토리툴바