[HADOOP] 맵리 듀스 올드 API - 명령 행 인수를 전달하면지도합니다
HADOOP맵리 듀스 올드 API - 명령 행 인수를 전달하면지도합니다
나는 오래된 API를 사용하여 HDFS에 저장된 입력 파일 (명령 행 인수 통과) 검색 문자열의 발생을 찾기위한 맵리 듀스 작업을 코딩하고 있습니다.
다음은 내 드라이버 클래스입니다 -
public class StringSearchDriver
{
public static void main(String[] args) throws IOException
{
JobConf jc = new JobConf(StringSearchDriver.class);
jc.set("SearchWord", args[2]);
jc.setJobName("String Search");
FileInputFormat.addInputPath(jc, new Path(args[0]));
FileOutputFormat.setOutputPath(jc, new Path(args[1]));
jc.setMapperClass(StringSearchMap.class);
jc.setReducerClass(StringSearchReduce.class);
jc.setOutputKeyClass(Text.class);
jc.setOutputValueClass(IntWritable.class);
JobClient.runJob(jc);
}
}
다음은 내 매퍼 클래스입니다 -
public class StringSearchMap extends MapReduceBase implements
Mapper<LongWritable, Text, Text, IntWritable>
{
String searchWord;
public void configure(JobConf jc)
{
searchWord = jc.get("SearchWord");
}
@Override
public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> out, Reporter reporter)
throws IOException
{
String[] input = value.toString().split("");
for(String word:input)
{
if (word.equalsIgnoreCase(searchWord))
out.collect(new Text(word), new IntWritable(1));
}
}
}
작업 실행, 나는 아래의 오류를 얻고있다 (전달 된 명령 줄 문자열을 "안녕하세요"입니다) -
14/09/21 22:35:41 INFO mapred.JobClient: Task Id : attempt_201409212134_0005_m_000001_2, Status : FAILED
java.lang.ClassCastException: interface javax.xml.soap.Text
at java.lang.Class.asSubclass(Class.java:3129)
at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:795)
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:964)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:422)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:366)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:416)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
제안하십시오.
해결법
-
==============================
1.당신은 자동 잘못된 가져 오기를 수입했다. 대신 수입의 당신은 javax.xml.soap.Text도를 가져 org.apache.hadoop.io.Text
당신은 자동 잘못된 가져 오기를 수입했다. 대신 수입의 당신은 javax.xml.soap.Text도를 가져 org.apache.hadoop.io.Text
이 블로그에서 샘플 잘못 가져 오기를 찾을 수 있습니다.
한 점은, 새로운 API를 채택하는 것이 더 좋습니다
편집하다
나는 새로운 API를 사용
import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; /** * @author Unmesha sreeveni * @Date 23 sep 2014 */ public class StringSearchDriver extends Configured implements Tool { public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { Configuration conf = context.getConfiguration(); String line = value.toString(); String searchString = conf.get("word"); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { String token = tokenizer.nextToken(); if(token.equals(searchString)){ word.set(token); context.write(word, one); } } } } public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> { public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } context.write(key, new IntWritable(sum)); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); int res = ToolRunner.run(conf, new StringSearchDriver(), args); System.exit(res); } @Override public int run(String[] args) throws Exception { // TODO Auto-generated method stub if (args.length != 3) { System.out .printf("Usage: Search String <input dir> <output dir> <search word> \n"); System.exit(-1); } String source = args[0]; String dest = args[1]; String searchword = args[2]; Configuration conf = new Configuration(); conf.set("word", searchword); Job job = new Job(conf, "Search String"); job.setJarByClass(StringSearchDriver.class); FileSystem fs = FileSystem.get(conf); Path in =new Path(source); Path out =new Path(dest); if (fs.exists(out)) { fs.delete(out, true); } job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); FileInputFormat.addInputPath(job, in); FileOutputFormat.setOutputPath(job, out); boolean sucess = job.waitForCompletion(true); return (sucess ? 0 : 1); } }
이 작동합니다.
-
==============================
2.텍스트에 대 한; 필요한 하둡 패키지는 org.apache.hadoop.io입니다 .. 패키지를 확인
텍스트에 대 한; 필요한 하둡 패키지는 org.apache.hadoop.io입니다 .. 패키지를 확인
import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*;
from https://stackoverflow.com/questions/25962454/mapreduce-old-api-passing-command-line-argument-to-map by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] s3distcp에 대한 여러 소스 파일 (0) | 2019.10.14 |
---|---|
[HADOOP] 하둡을 사용하여 jar 파일을 실행 - 파이썬 (0) | 2019.10.14 |
[HADOOP] 쓰기에서 빈 값 () 메소드 : 하둡 맵리 듀스에서 사용자 정의 데이터 유형 (0) | 2019.10.14 |
[HADOOP] 하둡 : 파일은 ... 0 만 노드에 복제 대신 한 수 (0) | 2019.10.14 |
[HADOOP] 아파치 수로는 트위터 API의 SSL / TLS 필수 요구 사항 후 트위터 데이터를 스트리밍 중단했다. (0) | 2019.10.14 |