복붙노트

[HADOOP] 하둡지도에서 엑셀 파일을 읽기 감소

HADOOP

하둡지도에서 엑셀 파일을 읽기 감소

내가 프로그램을 감소 hadoop.The지도의 통합에 대한 몇 가지 데이터가 포함 된 Excel 파일을 읽을 시도하고 내가 하둡에서 Excel 파일에 대한 특별한 InputFormat 리더를 사용할 필요가 잘 작동하는 것 같지만 출력 생산이 아닌 읽을 수 format.Do에 지도는 감소 누군 데? 구성은 다음과 같습니다

   Configuration conf=getConf();
Job job=new Job(conf,"LatestWordCount");
job.setJarByClass(FlightDetailsCount.class);
Path input=new Path(args[0]);
Path output=new Path(args[1]);
FileInputFormat.setInputPaths(job, input);
FileOutputFormat.setOutputPath(job, output);
job.setMapperClass(MapClass.class);
job.setReducerClass(ReduceClass.class);
//job.setCombinerClass(ReduceClass.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//job.setOutputKeyClass(Text.class);
//job.setOutputValueClass(Text.class);
System.exit(job.waitForCompletion(true)?0:1);
return 0;

출력 농산물은 다음과 같습니다  KW OA] nΕr3 \ n "P 饚 6WjJ9Wf = 9mldRy / Ք 7 ^ 나는   M * ^ Ք NZL ^) 妗 J (dRͱ / 7TS * M // 7TS 및 jZoTSR @ 7) oTӺ5 {% + ۆ w6- E_} = m) ~ ʅ ژ : #J ] U>

해결법

  1. ==============================

    1.누군가가 실제로 MS Excel 파일 (나는 그것을 의심하고 신속하게 조사 아무것도를 전환하지 않음)에 대한 사용자 정의 InputFormat을 개발 나도 몰라,하지만 당신은 가장 확실하게 TextInputFormat를 사용하여 Excel 파일을 읽을 수 없습니다. XSL 파일은 바이너리입니다.

    누군가가 실제로 MS Excel 파일 (나는 그것을 의심하고 신속하게 조사 아무것도를 전환하지 않음)에 대한 사용자 정의 InputFormat을 개발 나도 몰라,하지만 당신은 가장 확실하게 TextInputFormat를 사용하여 Excel 파일을 읽을 수 없습니다. XSL 파일은 바이너리입니다.

    해결 방법 : 다음은 TextInputFormat를 사용하여로드 할 수 있습니다, 당신의 Excel에서 CSV 또는 TSV로 파일을 보냅니다.

  2. ==============================

    2.나는 조금 늦게 알아,하지만 지금은 누군가가 이미 이런 종류의 문제에 대한 표준 솔루션으로 엑셀 입력 형식을 만들었습니다. 이 -https 읽기 : //sreejithrpillai.wordpress.com/2014/11/06/excel-inputformat-for-hadoop-mapreduce/를

    나는 조금 늦게 알아,하지만 지금은 누군가가 이미 이런 종류의 문제에 대한 표준 솔루션으로 엑셀 입력 형식을 만들었습니다. 이 -https 읽기 : //sreejithrpillai.wordpress.com/2014/11/06/excel-inputformat-for-hadoop-mapreduce/를

    GitHub의 프로젝트는 코드베이스가있다.

    여기 봐 - https://github.com/sreejithpillai/ExcelRecordReaderMapReduce/

  3. ==============================

    3.당신은 또한 당신이 하둡과 스파크와 함께 / 쓰기 Excel을 읽을 수있는 HadoopOffice 라이브러리를 사용할 수 있습니다. 그것은 메이븐 중앙 및 불꽃 패키지에서 사용할 수 있습니다.

    당신은 또한 당신이 하둡과 스파크와 함께 / 쓰기 Excel을 읽을 수있는 HadoopOffice 라이브러리를 사용할 수 있습니다. 그것은 메이븐 중앙 및 불꽃 패키지에서 사용할 수 있습니다.

    https://github.com/ZuInnoTe/hadoopoffice/wiki

  4. from https://stackoverflow.com/questions/15868631/reading-a-excel-file-in-hadoop-map-reduce by cc-by-sa and MIT license