복붙노트

[HADOOP] hadoop mapreduce : java.lang.UnsatisfiedLinkError : org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy () Z

HADOOP

hadoop mapreduce : java.lang.UnsatisfiedLinkError : org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy () Z

맵 축소 작업에서 압축 된 시퀀스 파일을 작성하려고합니다. 나는 사용하고있다. hadoop 2.0.0-cdh4.5.0 및 snappy-java 1.0.4.1

여기 내 코드가 있습니다 :

package jinvestor.jhouse.mr;

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.OutputStream;
import java.util.Arrays;
import java.util.List;

import jinvestor.jhouse.core.House;
import jinvestor.jhouse.core.util.HouseAvroUtil;
import jinvestor.jhouse.download.HBaseHouseDAO;

import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.SnappyCodec;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.mahout.math.DenseVector;
import org.apache.mahout.math.NamedVector;
import org.apache.mahout.math.VectorWritable;

/**
 * Produces mahout vectors from House entries in HBase.
 * 
 * @author Michael Scott Knapp
 * 
 */
public class HouseVectorizer {

    private final Configuration configuration;
    private final House minimumHouse;
    private final House maximumHouse;

    public HouseVectorizer(final Configuration configuration,
            final House minimumHouse, final House maximumHouse) {
        this.configuration = configuration;
        this.minimumHouse = minimumHouse;
        this.maximumHouse = maximumHouse;
    }

    public void vectorize() throws IOException, ClassNotFoundException, InterruptedException {
        JobConf jobConf = new JobConf();
        jobConf.setMapOutputKeyClass(LongWritable.class);
        jobConf.setMapOutputValueClass(VectorWritable.class);

        // we want the vectors written straight to HDFS,
        // the order does not matter.
        jobConf.setNumReduceTasks(0);

        Path outputDir = new Path("/home/cloudera/house_vectors");
        FileSystem fs = FileSystem.get(configuration);
        if (fs.exists(outputDir)) {
            fs.delete(outputDir, true);
        }

        FileOutputFormat.setOutputPath(jobConf, outputDir);

        // I want the mappers to know the max and min value
        // so they can normalize the data.
        // I will add them as properties in the configuration,
        // by serializing them with avro.
        String minmax = HouseAvroUtil.toBase64String(Arrays.asList(minimumHouse,
                maximumHouse));
        jobConf.set("minmax", minmax);

        Job job = Job.getInstance(jobConf);
        Scan scan = new Scan();
        scan.addFamily(Bytes.toBytes("data"));
        TableMapReduceUtil.initTableMapperJob("homes", scan,
                HouseVectorizingMapper.class, LongWritable.class,
                VectorWritable.class, job);
        job.setOutputFormatClass(SequenceFileOutputFormat.class);
        job.setOutputKeyClass(LongWritable.class);
        job.setOutputValueClass(VectorWritable.class);
        job.setMapOutputKeyClass(LongWritable.class);
        job.setMapOutputValueClass(VectorWritable.class);

        SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);
        SequenceFileOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);
        SequenceFileOutputFormat.setOutputPath(job, outputDir);
        job.getConfiguration().setClass("mapreduce.map.output.compress.codec", 
                SnappyCodec.class, 
                CompressionCodec.class);

        job.waitForCompletion(true);
    }

내가 그것을 실행할 때 나는 이것을 얻는다.

java.lang.Exception: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:401)
Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
    at org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy(Native Method)
    at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:62)
    at org.apache.hadoop.io.compress.SnappyCodec.getCompressorType(SnappyCodec.java:127)
    at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:104)
    at org.apache.hadoop.io.compress.CodecPool.getCompressor(CodecPool.java:118)
    at org.apache.hadoop.io.SequenceFile$Writer.init(SequenceFile.java:1169)
    at org.apache.hadoop.io.SequenceFile$Writer.<init>(SequenceFile.java:1080)
    at org.apache.hadoop.io.SequenceFile$BlockCompressWriter.<init>(SequenceFile.java:1400)
    at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:274)
    at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:527)
    at org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat.getSequenceWriter(SequenceFileOutputFormat.java:64)
    at org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat.getRecordWriter(SequenceFileOutputFormat.java:75)
    at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.<init>(MapTask.java:617)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:737)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:338)
    at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:233)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)
    at java.util.concurrent.FutureTask.run(FutureTask.java:262)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:744)

이 줄을 주석 처리하면 테스트가 통과됩니다.

SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);
        SequenceFileOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);
        job.getConfiguration().setClass("mapreduce.map.output.compress.coded", 
                SnappyCodec.class, 
                CompressionCodec.class);

그러나, 나는 정말로 내 시퀀스 파일에 멋진 압축을 사용하고 싶다. 누군가 내가 잘못하고있는 것을 나에게 설명해 줄 수 있니?

해결법

  1. ==============================

    1.Cloudera 커뮤니티에서 다음 정보를 찾았습니다.

    Cloudera 커뮤니티에서 다음 정보를 찾았습니다.

    예를 들어 Hortonworks HDP를 사용하고 spark-env.sh에서 다음과 같은 구성을 사용합니다.

    export JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:/usr/hdp/2.2.0.0-2041/hadoop/lib/native
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/hdp/2.2.0.0-2041/hadoop/lib/native
    export SPARK_YARN_USER_ENV="JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH,LD_LIBRARY_PATH=$LD_LIBRARY_PATH"
    
  2. ==============================

    2.core-site.xml과 mapred-site.xml을 확인하십시오. 올바른 속성과 라이브러리가있는 폴더의 경로가 있어야합니다.

    core-site.xml과 mapred-site.xml을 확인하십시오. 올바른 속성과 라이브러리가있는 폴더의 경로가 있어야합니다.

    core-site.xml

    <property>
      <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.SnappyCodec</value>
    </property>
    

    mapred-site.xml

     <property>
          <name>mapreduce.map.output.compress</name>
          <value>true</value>
        </property>
    
        <property>
         <name>mapred.map.output.compress.codec</name>  
         <value>org.apache.hadoop.io.compress.SnappyCodec</value>
        </property>
    
    
        <property>
          <name>mapreduce.admin.user.env</name>
          <value>LD_LIBRARY_PATH=/usr/hdp/2.2.0.0-1084/hadoop/lib/native</value>
        </property>
    

    LD_LIBRARY_PATH - libsnappy.so의 경로를 포함해야합니다.

  3. ==============================

    3.내 문제는 내 JRE에 적절한 기본 라이브러리가 없다는 것입니다. 이것은 JDK를 cloudera의 사전 빌드 된 VM에서 JDK 1.7로 전환했기 때문에 가능하지 않을 수도 있습니다. 조그만 .so 파일은 hadoop / lib / native 디렉토리에 있으며, JRE는이를 가지고 있어야합니다. 클래스 패스에 추가하면 내 문제가 해결되지 않는 것 같습니다. 나는 이것을 다음과 같이 결심했다.

    내 문제는 내 JRE에 적절한 기본 라이브러리가 없다는 것입니다. 이것은 JDK를 cloudera의 사전 빌드 된 VM에서 JDK 1.7로 전환했기 때문에 가능하지 않을 수도 있습니다. 조그만 .so 파일은 hadoop / lib / native 디렉토리에 있으며, JRE는이를 가지고 있어야합니다. 클래스 패스에 추가하면 내 문제가 해결되지 않는 것 같습니다. 나는 이것을 다음과 같이 결심했다.

    $ cd /usr/lib/hadoop/lib/native
    $ sudo cp *.so /usr/java/latest/jre/lib/amd64/
    

    그런 다음 SnappyCodec 클래스를 사용할 수있었습니다. 귀하의 경로는 다를 수 있습니다.

    저것은 다음 문제에 저를 얻는 것을 보였다 :

    원인 : java.lang.RuntimeException : 원시 snappy 라이브러리를 사용할 수 없음 : SnappyCompressor가로드되지 않았습니다.

    아직 해결하려고 노력 중입니다.

  4. ==============================

    4.* .so 파일뿐만 아니라 모든 파일이 필요합니다. 또한 거기에서 libs를 복사하는 대신 경로에 폴더를 포함하는 것이 이상적입니다. 이 후에 MapReduce 서비스를 다시 시작해야 새 라이브러리를 가져와 사용할 수 있습니다.

    * .so 파일뿐만 아니라 모든 파일이 필요합니다. 또한 거기에서 libs를 복사하는 대신 경로에 폴더를 포함하는 것이 이상적입니다. 이 후에 MapReduce 서비스를 다시 시작해야 새 라이브러리를 가져와 사용할 수 있습니다.

    아무도

  5. ==============================

    5.hadoop.dll (수동으로 복사 한 파일)을 windows \ system32에서 제거하고 HADOOP_HOME = \ hadoop-2.6.4 IT를 설정 한 후 작동합니다 !!!

    hadoop.dll (수동으로 복사 한 파일)을 windows \ system32에서 제거하고 HADOOP_HOME = \ hadoop-2.6.4 IT를 설정 한 후 작동합니다 !!!

  6. ==============================

    6.필자의 경우 하이브 -conf 파일 인 mapred-site.xml을 검사 할 수 있습니다. , 키를 확인하십시오 : mapreduce.admin.user.env 가치,

    필자의 경우 하이브 -conf 파일 인 mapred-site.xml을 검사 할 수 있습니다. , 키를 확인하십시오 : mapreduce.admin.user.env 가치,

    나는 그것을 새로운 datanode에서 테스트했고, native dependencies가없는 컴퓨터에서 unlinked-buildSnappy 오류를 받았다. (libsnappy.so 등)

  7. from https://stackoverflow.com/questions/22150417/hadoop-mapreduce-java-lang-unsatisfiedlinkerror-org-apache-hadoop-util-nativec by cc-by-sa and MIT license