복붙노트

[HADOOP] 데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다.

HADOOP

데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다.

HBase에 저장된 문서의 TF (Term Frequency)와 IDF (Inverse Document Frequency)를 계산하고 싶습니다.

또한 계산 된 TF를 HBase 테이블에 저장하고 계산 된 IDF를 다른 HBase 테이블에 저장하려고합니다.

너 나를 인도 할 수 있니?

Mahout 0.4에서 BayesTfIdfDriver를 보았습니다. 그러나 나는 머리를 쓰지 않을 것입니다.

해결법

  1. ==============================

    1.해결책의 개요는 매우 간단합니다.

    해결책의 개요는 매우 간단합니다.

    TF-IDF의 위키 피 디아 페이지는 수식의 세부 사항을 기억하기에 좋은 참고 자료입니다. http://en.wikipedia.org/wiki/Tf*idf

  2. ==============================

    2.TF, IDF를 계산하려면 문서 ID가있는 용어를 저장하는 중간 테이블 "TermMatrix"를 작성해야합니다. 그런 다음 TermMatrix 테이블을 사용하여 TFIDF를 계산할 수 있습니다. 실시간에 가깝지만 실시간 TFIDF 출력을 원하면 "TF", "IDF"테이블을 생성하는 것이 좋습니다.

    TF, IDF를 계산하려면 문서 ID가있는 용어를 저장하는 중간 테이블 "TermMatrix"를 작성해야합니다. 그런 다음 TermMatrix 테이블을 사용하여 TFIDF를 계산할 수 있습니다. 실시간에 가깝지만 실시간 TFIDF 출력을 원하면 "TF", "IDF"테이블을 생성하는 것이 좋습니다.

    HBase를 사용하여 TFIDF를 계산하는 방법에 대한 블로그를 작성했습니다. http://ahikmat.blogspot.kr/2014/07/building-term-matrix-on-hbase.html

  3. from https://stackoverflow.com/questions/10953731/calculate-tf-idf-of-documents-using-hbase-as-the-datasource by cc-by-sa and MIT license