복붙노트

[HADOOP] 맵리 듀스 올드 API - 명령 행 인수를 전달하면지도합니다

HADOOP

맵리 듀스 올드 API - 명령 행 인수를 전달하면지도합니다

나는 오래된 API를 사용하여 HDFS에 저장된 입력 파일 (명령 행 인수 통과) 검색 문자열의 발생을 찾기위한 맵리 듀스 작업을 코딩하고 있습니다.

다음은 내 드라이버 클래스입니다 -

public class StringSearchDriver
{

    public static void main(String[] args) throws IOException
    {
        JobConf jc = new JobConf(StringSearchDriver.class);
        jc.set("SearchWord", args[2]);
        jc.setJobName("String Search");
        FileInputFormat.addInputPath(jc, new Path(args[0]));
        FileOutputFormat.setOutputPath(jc, new Path(args[1]));
        jc.setMapperClass(StringSearchMap.class);
        jc.setReducerClass(StringSearchReduce.class);
        jc.setOutputKeyClass(Text.class);
        jc.setOutputValueClass(IntWritable.class);
        JobClient.runJob(jc);
    }
}

다음은 내 매퍼 클래스입니다 -

public class StringSearchMap extends MapReduceBase implements
        Mapper<LongWritable, Text, Text, IntWritable>
{
    String searchWord;

    public void configure(JobConf jc)
    {
        searchWord = jc.get("SearchWord");

    }



    @Override
    public void map(LongWritable key, Text value,  
            OutputCollector<Text, IntWritable> out, Reporter reporter)
            throws IOException
    {
        String[] input = value.toString().split("");

        for(String word:input)
        {
            if (word.equalsIgnoreCase(searchWord))
                out.collect(new Text(word), new IntWritable(1));
        }
    }

}

작업 실행, 나는 아래의 오류를 얻고있다 (전달 된 명령 줄 문자열을 "안녕하세요"입니다) -

14/09/21 22:35:41 INFO mapred.JobClient: Task Id : attempt_201409212134_0005_m_000001_2, Status : FAILED
java.lang.ClassCastException: interface javax.xml.soap.Text
    at java.lang.Class.asSubclass(Class.java:3129)
    at org.apache.hadoop.mapred.JobConf.getOutputKeyComparator(JobConf.java:795)
    at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:964)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:422)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:366)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:416)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
    at org.apache.hadoop.mapred.Child.main(Child.java:249)

제안하십시오.

해결법

  1. ==============================

    1.당신은 자동 잘못된 가져 오기를 수입했다. 대신 수입의 당신은 javax.xml.soap.Text도를 가져 org.apache.hadoop.io.Text

    당신은 자동 잘못된 가져 오기를 수입했다. 대신 수입의 당신은 javax.xml.soap.Text도를 가져 org.apache.hadoop.io.Text

    이 블로그에서 샘플 잘못 가져 오기를 찾을 수 있습니다.

    한 점은, 새로운 API를 채택하는 것이 더 좋습니다

    편집하다

    나는 새로운 API를 사용

    import java.io.IOException;
    import java.util.StringTokenizer;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.conf.Configured;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.Mapper;
    import org.apache.hadoop.mapreduce.Reducer;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
    import org.apache.hadoop.util.Tool;
    import org.apache.hadoop.util.ToolRunner;
    
    /**
     * @author Unmesha sreeveni
     * @Date 23 sep 2014
     */
    public class StringSearchDriver extends Configured implements Tool {
        public static class Map extends
        Mapper<LongWritable, Text, Text, IntWritable> {
    
            private final static IntWritable one = new IntWritable(1);
            private Text word = new Text();
    
            public void map(LongWritable key, Text value, Context context)
                    throws IOException, InterruptedException {
                Configuration conf = context.getConfiguration();
                String line = value.toString();
                String searchString = conf.get("word");
                StringTokenizer tokenizer = new StringTokenizer(line);
                while (tokenizer.hasMoreTokens()) {
                    String token = tokenizer.nextToken();
                    if(token.equals(searchString)){
                        word.set(token);
                        context.write(word, one);
                    }
    
                }
            }
        }
    
        public static class Reduce extends
        Reducer<Text, IntWritable, Text, IntWritable> {
    
            public void reduce(Text key, Iterable<IntWritable> values,
                    Context context) throws IOException, InterruptedException {
    
                int sum = 0;
                for (IntWritable val : values) {
                    sum += val.get();
                }
                context.write(key, new IntWritable(sum));
            }
        }
        public static void main(String[] args) throws Exception {
            Configuration conf = new Configuration();
            int res = ToolRunner.run(conf, new StringSearchDriver(), args);
            System.exit(res);
    
        }
        @Override
        public int run(String[] args) throws Exception {
            // TODO Auto-generated method stub
            if (args.length != 3) {
                System.out
                .printf("Usage: Search String <input dir> <output dir> <search word> \n");
                System.exit(-1);
            }
    
            String source = args[0];
            String dest = args[1];
            String searchword = args[2];
            Configuration conf = new Configuration();
            conf.set("word", searchword);
            Job job = new Job(conf, "Search String");
            job.setJarByClass(StringSearchDriver.class);
            FileSystem fs = FileSystem.get(conf);
    
            Path in =new Path(source);
            Path out =new Path(dest);
            if (fs.exists(out)) {
                fs.delete(out, true);
            }
    
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(IntWritable.class);
            job.setMapperClass(Map.class);
            job.setReducerClass(Reduce.class);
            job.setInputFormatClass(TextInputFormat.class);
            job.setOutputFormatClass(TextOutputFormat.class);
            FileInputFormat.addInputPath(job, in);
            FileOutputFormat.setOutputPath(job, out);
            boolean sucess = job.waitForCompletion(true);
            return (sucess ? 0 : 1);
        }
    }
    

    이 작동합니다.

  2. ==============================

    2.텍스트에 대 한; 필요한 하둡 패키지는 org.apache.hadoop.io입니다 .. 패키지를 확인

    텍스트에 대 한; 필요한 하둡 패키지는 org.apache.hadoop.io입니다 .. 패키지를 확인

    import java.io.IOException;
    import java.util.*;
    
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.conf.*;
    import org.apache.hadoop.io.*;
    import org.apache.hadoop.mapred.*;
    import org.apache.hadoop.util.*;
    
  3. from https://stackoverflow.com/questions/25962454/mapreduce-old-api-passing-command-line-argument-to-map by cc-by-sa and MIT license