복붙노트

[HADOOP] Hadoop Pig를 사용하여 여러 줄의 각 레코드가있는 텍스트 파일에서 데이터를로드합니까?

HADOOP

Hadoop Pig를 사용하여 여러 줄의 각 레코드가있는 텍스트 파일에서 데이터를로드합니까?

다음 형식의 데이터 파일이 있습니다.

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

Hadoop / pig / 분석을 위해이 파일을 읽는 가장 좋은 방법은 무엇입니까?

해결법

  1. ==============================

    1.데이터 작성 방법을 제어 할 수있는 방법이 있습니까? 이것을 탭으로 분리하는 프로세스를 작성하면 상자 밖으로 나가는 데 도움이됩니다.

    데이터 작성 방법을 제어 할 수있는 방법이 있습니까? 이것을 탭으로 분리하는 프로세스를 작성하면 상자 밖으로 나가는 데 도움이됩니다.

    그렇지 않으면 사용자 정의 레코드 리더 (Pig 또는 Java MapReduce)를 작성하는 것이 유일한 옵션 일 수 있습니다. 둘 다 어렵지 않습니다.

  2. from https://stackoverflow.com/questions/6726407/use-hadoop-pig-to-load-data-from-text-file-w-each-record-on-multiple-lines by cc-by-sa and MIT license