특수 문자로 구분 하둡에서 텍스트 소스를 읽는 방법

내 데이터 형식은 \ 0 대신 새로운 라인의 사용합니다. 그래서 기본 하둡 텍스트 라인 판독기가 작동하지 않습니다. 어떻게 특수 문자로 구분 된 행을 읽어하도록 구성 할 수 있습니까?

이 LineReader을 구성 할 수없는 경우, 어쩌면 그것은 ( "\ 0" "\ n을"TR) 특정 스트림 프로세서를 적용하는 것이 가능하다이 작업을 수행하는 방법을 잘.

해결법

==============================
1.대신 \ n의 \ 0에 데이터를 분할 자신의 InputFormat 클래스를 작성할 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat : 그 작업을 수행하는 방법에 대한 연습은 여기를 확인

대신 \ n의 \ 0에 데이터를 분할 자신의 InputFormat 클래스를 작성할 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat : 그 작업을 수행하는 방법에 대한 연습은 여기를 확인

그것의 요점은 기본 InputFormat 클래스, 또는 그 서브 클래스 중 하나를 서브 클래스 및 사용자 정의 규칙을 자신의 RecordReader를 정의 할 필요가 있다는 것입니다. 그에 대한 자세한 내용은, 당신은 InputFormat 설명서를 참조 할 수 있습니다.
==============================
2.그 목적에 대해 "textinputformat.record.delimiter"구성 속성이 있습니다. 당신을 "\ 0"이 속성 값을 변경하여 기본 EOL ( "\ n")를 구분 기호를 변경할 수 있습니다.

그 목적에 대해 "textinputformat.record.delimiter"구성 속성이 있습니다. 당신을 "\ 0"이 속성 값을 변경하여 기본 EOL ( "\ n")를 구분 기호를 변경할 수 있습니다.

자세한 내용은 여기 : http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop

대한 비슷한 질문이있다 유용도있을 수 있습니다 스파크의 기본 구분 기호, 변경에 대한 : 스파크에 textinputformat.record.delimiter 설정을
==============================
3.방법은 TextDelimited 방식의 작업을 사용하는 것 어떻습니까? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html

방법은 TextDelimited 방식의 작업을 사용하는 것 어떻습니까? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html

즉 등 자신의 InputFormat를 작성하지 피한다

구분 된 텍스트의 예에 https://github.com/Cascading/Impatient/wiki/Part-2

from https://stackoverflow.com/questions/12118836/how-to-read-text-source-in-hadoop-separated-by-special-character by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 어떻게 하이브 저장 데이터 (HDFS에서로드)? (0)	2019.09.18
[HADOOP] 윈도우 기능을 사용하여 지원 스파크 (0)	2019.09.18
[HADOOP] 실패 오류 : 때 java.io.IOException : 모든 수집가의 초기화 실패 (0)	2019.09.18
[HADOOP] 때문에 HBase를 클라이언트 항아리 = TRUE 관리 하드에 HTable 데이터를 스캔 Bigtable을 연결할 수 없습니다 (0)	2019.09.18
[HADOOP] 하둡 하이브 mapred 작업에 대한 최대 감속기를 제한 할 수있는 기능? (0)	2019.09.18

복붙노트

[HADOOP] 특수 문자로 구분 하둡에서 텍스트 소스를 읽는 방법

특수 문자로 구분 하둡에서 텍스트 소스를 읽는 방법

해결법

1.대신 \ n의 \ 0에 데이터를 분할 자신의 InputFormat 클래스를 작성할 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat : 그 작업을 수행하는 방법에 대한 연습은 여기를 확인

2.그 목적에 대해 "textinputformat.record.delimiter"구성 속성이 있습니다. 당신을 "\ 0"이 속성 값을 변경하여 기본 EOL ( "\ n")를 구분 기호를 변경할 수 있습니다.

3.방법은 TextDelimited 방식의 작업을 사용하는 것 어떻습니까? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html

'HADOOP' 카테고리의 다른 글

티스토리툴바