[HADOOP] Apache Mahout을 사용하여 데이터 분류
HADOOPApache Mahout을 사용하여 데이터 분류
나는 간단한 분류 문제를 풀려고 노력하고있다.
문제 : 나는 일련의 텍스트를 가지고 있으며 그 내용을 기반으로 텍스트를 분류해야합니다.
Mahout을 사용하는 솔루션 : 모델을 생성하기 위해 입력을 시퀀스 파일로 변환해야한다는 것을 이해했습니다. 예, 저는 이것을 할 수있었습니다. 이제 테스트 데이터를 어떻게 분류합니까? 20News 예제는 정확성 만 테스트합니다. 그러나 실제 분류를하고 싶습니다. 나는 코드를 작성하거나 테스트 집합을 분류하기 위해 사용할 수있는 기존 클래스를 사용해야하는지 잘 모르겠다.
해결법
-
==============================
1.제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.
제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.
시험판은 http://www.manning.com/owen/에서 구할 수 있습니다.
-
==============================
2.비슷한 문제가 있습니다.
비슷한 문제가 있습니다.
달리는
bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs
모델을 기반으로 텍스트 파일을 분류합니다.
이것은 좀 더 앞으로 나아갈 수도 있지만, 나처럼, 당신은 문서의 전체 부하를 분류하고 출력을 유용한 형식으로 원한다고 생각합니다.
이 작업을 수행하려면 약간의 Java 프로그램을 작성해야합니다. 누군가는 그것이 내가 원하는 것을 할 것처럼 보이는 예제를 가지고있다. https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java
from https://stackoverflow.com/questions/4137622/classify-data-using-apache-mahout by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hdfs를 통해 hbase 데이터를 가져 오거나 내보내는 법 (hadoop 명령) (0) | 2019.07.08 |
---|---|
[HADOOP] Ubuntu 14.04에 HDFS를 마운트하는 방법 (0) | 2019.07.08 |
[HADOOP] 돼지에서 결과를 데이터베이스로 내보내는 방법 (0) | 2019.07.08 |
[HADOOP] Snappy splittable 또는 splittable입니까? (0) | 2019.07.08 |
[HADOOP] hadoop hdfs에서 / tmp 디렉토리 란 무엇입니까? (0) | 2019.07.08 |