복붙노트

[HADOOP] Hadoop : 키와 값은 출력 파일에서 탭으로 구분됩니다. 세미콜론으로 구분 된 방법은 무엇입니까?

HADOOP

Hadoop : 키와 값은 출력 파일에서 탭으로 구분됩니다. 세미콜론으로 구분 된 방법은 무엇입니까?

제목이 이미 내 질문을 설명하고 있다고 생각합니다. 나는 변화시키고 싶다.

key (tab space) value

으로

key;value

모든 출력 파일에서 감속기가 매퍼의 출력에서 ​​생성됩니다.

나는이 google에 대한 좋은 문서를 찾을 수 없었다. 아무도 이것을 달성하는 방법에 대한 코드의 일부를 줄 수 있습니까?

해결법

  1. ==============================

    1.구성 속성 mapred.textoutputformat.separator를 ";"으로 설정합니다.

    구성 속성 mapred.textoutputformat.separator를 ";"으로 설정합니다.

  2. ==============================

    2.더 나은 문서가 없기 때문에 여기에 수집 한 내용이 있습니다.

    더 나은 문서가 없기 때문에 여기에 수집 한 내용이 있습니다.

        setTextOutputFormatSeparator(final Job job, final String separator){
                final Configuration conf = job.getConfiguration(); //ensure accurate config ref
    
                conf.set("mapred.textoutputformat.separator", separator); //Prior to Hadoop 2 (YARN)
                conf.set("mapreduce.textoutputformat.separator", separator);  //Hadoop v2+ (YARN)
                conf.set("mapreduce.output.textoutputformat.separator", separator);
                conf.set("mapreduce.output.key.field.separator", separator);
                conf.set("mapred.textoutputformat.separatorText", separator); // ?
        }
    
  3. ==============================

    3."KeyValueLineRecordReader"의 "KEY_VALUE_SEPERATOR"속성을 사용하여 선택한 구분 기호를 지정할 수 있습니다.

    "KeyValueLineRecordReader"의 "KEY_VALUE_SEPERATOR"속성을 사용하여 선택한 구분 기호를 지정할 수 있습니다.

  4. from https://stackoverflow.com/questions/11031785/hadoop-key-and-value-are-tab-separated-in-the-output-file-how-to-do-it-semicol by cc-by-sa and MIT license