복붙노트

[HADOOP] Apache Mahout을 사용하여 데이터 분류

HADOOP

Apache Mahout을 사용하여 데이터 분류

나는 간단한 분류 문제를 풀려고 노력하고있다.

문제 :     나는 일련의 텍스트를 가지고 있으며 그 내용을 기반으로 텍스트를 분류해야합니다.

Mahout을 사용하는 솔루션 :     모델을 생성하기 위해 입력을 시퀀스 파일로 변환해야한다는 것을 이해했습니다. 예, 저는 이것을 할 수있었습니다. 이제 테스트 데이터를 어떻게 분류합니까? 20News 예제는 정확성 만 테스트합니다. 그러나 실제 분류를하고 싶습니다.     나는 코드를 작성하거나 테스트 집합을 분류하기 위해 사용할 수있는 기존 클래스를 사용해야하는지 잘 모르겠다.

해결법

  1. ==============================

    1.제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.

    제 자신의 작업을 싫어하기는하지만 전체 섹션을 Mahout in Action에 분류에 포함 시켰습니다. 이론, 코드 예제, 사례 연구 사례, 심지어 전체 서버 팜 구현.

    시험판은 http://www.manning.com/owen/에서 구할 수 있습니다.

  2. ==============================

    2.비슷한 문제가 있습니다.

    비슷한 문제가 있습니다.

    달리는

    bin/mahout org.apache.mahout.classifier.Classify --path <PATH TO MODEL> --classify <PATH TO TEXT FILE TO BE CLASSIFIED> --encoding UTF-8 --analyzer org.apache.mahout.vectorizer.DefaultAnalyzer --defaultCat unknown --gramSize 1 --classifierType bayes --dataSource hdfs
    

    모델을 기반으로 텍스트 파일을 분류합니다.

    이것은 좀 더 앞으로 나아갈 수도 있지만, 나처럼, 당신은 문서의 전체 부하를 분류하고 출력을 유용한 형식으로 원한다고 생각합니다.

    이 작업을 수행하려면 약간의 Java 프로그램을 작성해야합니다. 누군가는 그것이 내가 원하는 것을 할 것처럼 보이는 예제를 가지고있다. https://bitbucket.org/jaganadhg/blog/src/tip/bck9/java/src/org/bc/kl/ClassifierDemo.java

  3. from https://stackoverflow.com/questions/4137622/classify-data-using-apache-mahout by cc-by-sa and MIT license