Apache Mahout을 사용하여 데이터 분류

나는 간단한 분류 문제를 풀려고 노력하고있다.

문제 : 나는 일련의 텍스트를 가지고 있으며 그 내용을 기반으로 텍스트를 분류해야합니다.

Mahout을 사용하는 솔루션 : 모델을 생성하기 위해 입력을 시퀀스 파일로 변환해야한다는 것을 이해했습니다. 예, 저는 이것을 할 수있었습니다. 이제 테스트 데이터를 어떻게 분류합니까? 20News 예제는 정확성 만 테스트합니다. 그러나 실제 분류를하고 싶습니다. 나는 코드를 작성하거나 테스트 집합을 분류하기 위해 사용할 수있는 기존 클래스를 사용해야하는지 잘 모르겠다.

해결법

==============================
1.제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.

제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.

시험판은 http://www.manning.com/owen/에서 구할 수 있습니다.
==============================
2.비슷한 문제가 있습니다.

비슷한 문제가 있습니다.

달리는
```
bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs
```
모델을 기반으로 텍스트 파일을 분류합니다.

이것은 좀 더 앞으로 나아갈 수도 있지만, 나처럼, 당신은 문서의 전체 부하를 분류하고 출력을 유용한 형식으로 원한다고 생각합니다.

이 작업을 수행하려면 약간의 Java 프로그램을 작성해야합니다. 누군가는 그것이 내가 원하는 것을 할 것처럼 보이는 예제를 가지고있다. https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

from https://stackoverflow.com/questions/4137622/classify-data-using-apache-mahout by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] hdfs를 통해 hbase 데이터를 가져 오거나 내보내는 법 (hadoop 명령) (0)	2019.07.08
[HADOOP] Ubuntu 14.04에 HDFS를 마운트하는 방법 (0)	2019.07.08
[HADOOP] 돼지에서 결과를 데이터베이스로 내보내는 방법 (0)	2019.07.08
[HADOOP] Snappy splittable 또는 splittable입니까? (0)	2019.07.08
[HADOOP] hadoop hdfs에서 / tmp 디렉토리 란 무엇입니까? (0)	2019.07.08

복붙노트

[HADOOP] Apache Mahout을 사용하여 데이터 분류

Apache Mahout을 사용하여 데이터 분류

해결법

1.제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.

2.비슷한 문제가 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바