[HADOOP] 액션 북의 Mahout에서 예제를 실행하는 방법
HADOOP액션 북의 Mahout에서 예제를 실행하는 방법
7 장에서 hello world 예제를 실행하려고합니다. 이클립스에서 다음을 만든 다음 항아리에 포장했습니다.
package com.mycode.mahout
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.mahout.clustering.WeightedVectorWritable;
import org.apache.mahout.clustering.kmeans.Cluster;
import org.apache.mahout.clustering.kmeans.KMeansDriver;
import org.apache.mahout.common.distance.EuclideanDistanceMeasure;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.apache.mahout.math.Vector;
import org.apache.mahout.math.VectorWritable;
public class SimpleKMeansClustering {
public static final double[][] points = { {1, 1}, {2, 1}, {1, 2},
{2, 2}, {3, 3}, {8, 8},
{9, 8}, {8, 9}, {9, 9}};
public static void writePointsToFile(List<Vector> points,
String fileName,
FileSystem fs,
Configuration conf) throws IOException {
Path path = new Path(fileName);
SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf,
path, LongWritable.class, VectorWritable.class);
long recNum = 0;
VectorWritable vec = new VectorWritable();
for (Vector point : points) {
vec.set(point);
writer.append(new LongWritable(recNum++), vec);
}
writer.close();
}
public static List<Vector> getPoints(double[][] raw) {
List<Vector> points = new ArrayList<Vector>();
for (int i = 0; i < raw.length; i++) {
double[] fr = raw[i];
Vector vec = new RandomAccessSparseVector(fr.length);
vec.assign(fr);
points.add(vec);
}
return points;
}
public static void main(String args[]) throws Exception {
int k = 2;
List<Vector> vectors = getPoints(points);
File testData = new File("testdata");
if (!testData.exists()) {
testData.mkdir();
}
testData = new File("testdata/points");
if (!testData.exists()) {
testData.mkdir();
}
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
writePointsToFile(vectors, "testdata/points/file1", fs, conf);
Path path = new Path("testdata/clusters/part-00000");
SequenceFile.Writer writer = new SequenceFile.Writer(fs, conf,
path, Text.class, Cluster.class);
for (int i = 0; i < k; i++) {
Vector vec = vectors.get(i);
Cluster cluster = new Cluster(vec, i, new EuclideanDistanceMeasure());
writer.append(new Text(cluster.getIdentifier()), cluster);
}
writer.close();
KMeansDriver.run(conf, new Path("testdata/points"), new Path("testdata/clusters"),
new Path("output"), new EuclideanDistanceMeasure(), 0.001, 10,
true, false);
SequenceFile.Reader reader = new SequenceFile.Reader(fs,
new Path("output/" + Cluster.CLUSTERED_POINTS_DIR
+ "/part-m-00000"), conf);
IntWritable key = new IntWritable();
WeightedVectorWritable value = new WeightedVectorWritable();
while (reader.next(key, value)) {
System.out.println(value.toString() + " belongs to cluster "
+ key.toString());
}
reader.close();
}
}
나는 그것을 myjob.jar로 포장했다.
이제 클러스터에서 어떻게 실행합니까?
나는 다음을 시도했다.
hadoop jar myjob.jar com.mycode.mahout.SimpleKMeansClustering
java -jar myjob.jar
java -cp myjob.jar
다음과 같은 오류가 발생합니다.
[root@node1 tmp]# hadoop jar mahoutfirst.jar com.mahout.emc.SimpleKMeansClustering
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/mahout/math/Vector`
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:270)
at org.apache.hadoop.util.RunJar.main(RunJar.java:201)
Caused by: java.lang.ClassNotFoundException: org.apache.mahout.math.Vector
at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 3 more
mahout을 사용하여 작성된 코드를 실행하는 올바른 방법은 무엇인지 조언하십시오.
해결법
-
==============================
1.비록 이것이 꽤 늦었지만 비슷한 문제에 직면하고 있었고 maven을 사용하고 싶지 않기 때문에 다음과 같은 접근법이 효과적입니다.
비록 이것이 꽤 늦었지만 비슷한 문제에 직면하고 있었고 maven을 사용하고 싶지 않기 때문에 다음과 같은 접근법이 효과적입니다.
1) mahout 설치 디렉토리로 이동하여 * job.jar을 찾으십시오.
ls /usr/lib/mahout/ conf lib mahout-core-0.5-cdh3u3-job.jar mahout-examples-0.5-cdh3u3-job.jar mahout-taste-webapp-0.5-cdh3u3.war
2) mahout-examples-0.5-cdh3u3-job.jar을 코드가있는 디렉토리에 복사하십시오.
3) Mahout에서 제공 한 "작업"JAR 파일을 사용하십시오. 모든 의존성을 패키징합니다. 클래스도 추가해야합니다. hadoop 및 mahout 라이브러리를 사용하여 클래스를 컴파일하면 .class 파일이 준비됩니다.
4) 클래스 파일을 디렉토리의 작업 jar mahout-core-0.5-cdh3u3-job.jar에 추가하십시오.
jar uf mahout-core-0.5-cdh3u3-job.jar SimpleKMeansClustering.class
4) 코드를 사용하여 hadoop jar을 실행하십시오.
hadoop jar mahout-core-0.5-cdh3u3-job.jar SimpleKMeansClustering
5) 맵 축소 작업이 끝나면 다음을 볼 수 있습니다.
1.0: [1.000, 1.000] belongs to cluster 0 1.0: [2.000, 1.000] belongs to cluster 0 1.0: [1.000, 2.000] belongs to cluster 0 1.0: [2.000, 2.000] belongs to cluster 0 1.0: [3.000, 3.000] belongs to cluster 0 1.0: [8.000, 8.000] belongs to cluster 1 1.0: [9.000, 8.000] belongs to cluster 1 1.0: [8.000, 9.000] belongs to cluster 1 1.0: [9.000, 9.000] belongs to cluster 1
-
==============================
2.위의 클래스 정의가 아닌 예외를 살펴보면 Mahd 관련 항아리 (mahout-core.jar, 추측합니다)를 Hadoop 작업에 포함시켜야 할 것 같습니다.
위의 클래스 정의가 아닌 예외를 살펴보면 Mahd 관련 항아리 (mahout-core.jar, 추측합니다)를 Hadoop 작업에 포함시켜야 할 것 같습니다.
jar를 클러스터 전체의 맵퍼로 전달하려면 DistributedCache 또는 -libjar Hadoop 옵션을 사용해야합니다. 후자에 대한 아이디어가 여기에 설명되어 있습니다.
from https://stackoverflow.com/questions/19388769/how-to-run-examples-in-mahout-in-action-book by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop 클러스터의 모든 노드에서 pyspark 작업을 실행할 수 없습니다. (0) | 2019.08.09 |
---|---|
[HADOOP] Apache Hadoop 데이터 출력을 MySQL 데이터베이스에 저장 (0) | 2019.08.09 |
[HADOOP] Spark to Oozie 공유 라이브러리 추가 (0) | 2019.08.09 |
[HADOOP] 부분 집계와 결합기 중 어느 것이 더 빠릅니까? (0) | 2019.08.09 |
[HADOOP] 브라우저에서 HDFS 파일 열기 (0) | 2019.08.09 |