복붙노트

[HADOOP] 특수 문자로 구분 하둡에서 텍스트 소스를 읽는 방법

HADOOP

특수 문자로 구분 하둡에서 텍스트 소스를 읽는 방법

내 데이터 형식은 \ 0 대신 새로운 라인의 사용합니다. 그래서 기본 하둡 텍스트 라인 판독기가 작동하지 않습니다. 어떻게 특수 문자로 구분 된 행을 읽어하도록 구성 할 수 있습니까?

이 LineReader을 구성 할 수없는 경우, 어쩌면 그것은 ( "\ 0" "\ n을"TR) 특정 스트림 프로세서를 적용하는 것이 가능하다이 작업을 수행하는 방법을 잘.

해결법

  1. ==============================

    1.대신 \ n의 \ 0에 데이터를 분할 자신의 InputFormat 클래스를 작성할 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat : 그 작업을 수행하는 방법에 대한 연습은 여기를 확인

    대신 \ n의 \ 0에 데이터를 분할 자신의 InputFormat 클래스를 작성할 수 있습니다. http://developer.yahoo.com/hadoop/tutorial/module5.html#fileformat : 그 작업을 수행하는 방법에 대한 연습은 여기를 확인

    그것의 요점은 기본 InputFormat 클래스, 또는 그 서브 클래스 중 하나를 서브 클래스 및 사용자 정의 규칙을 자신의 RecordReader를 정의 할 필요가 있다는 것입니다. 그에 대한 자세한 내용은, 당신은 InputFormat 설명서를 참조 할 수 있습니다.

  2. ==============================

    2.그 목적에 대해 "textinputformat.record.delimiter"구성 속성이 있습니다. 당신을 "\ 0"이 속성 값을 변경하여 기본 EOL ( "\ n")를 구분 기호를 변경할 수 있습니다.

    그 목적에 대해 "textinputformat.record.delimiter"구성 속성이 있습니다. 당신을 "\ 0"이 속성 값을 변경하여 기본 EOL ( "\ n")를 구분 기호를 변경할 수 있습니다.

    자세한 내용은 여기 : http://amalgjose.wordpress.com/2013/05/27/custom-text-input-format-record-delimiter-for-hadoop

    대한 비슷한 질문이있다 유용도있을 수 있습니다 스파크의 기본 구분 기호, 변경에 대한 : 스파크에 textinputformat.record.delimiter 설정을

  3. ==============================

    3.방법은 TextDelimited 방식의 작업을 사용하는 것 어떻습니까? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html

    방법은 TextDelimited 방식의 작업을 사용하는 것 어떻습니까? http://docs.cascading.org/cascading/1.2/javadoc/cascading/scheme/TextDelimited.html

    즉 등 자신의 InputFormat를 작성하지 피한다

    구분 된 텍스트의 예에 https://github.com/Cascading/Impatient/wiki/Part-2

  4. from https://stackoverflow.com/questions/12118836/how-to-read-text-source-in-hadoop-separated-by-special-character by cc-by-sa and MIT license