[HADOOP] 데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다.
HADOOP데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다.
HBase에 저장된 문서의 TF (Term Frequency)와 IDF (Inverse Document Frequency)를 계산하고 싶습니다.
또한 계산 된 TF를 HBase 테이블에 저장하고 계산 된 IDF를 다른 HBase 테이블에 저장하려고합니다.
너 나를 인도 할 수 있니?
Mahout 0.4에서 BayesTfIdfDriver를 보았습니다. 그러나 나는 머리를 쓰지 않을 것입니다.
해결법
-
==============================
1.해결책의 개요는 매우 간단합니다.
해결책의 개요는 매우 간단합니다.
TF-IDF의 위키 피 디아 페이지는 수식의 세부 사항을 기억하기에 좋은 참고 자료입니다. http://en.wikipedia.org/wiki/Tf*idf
-
==============================
2.TF, IDF를 계산하려면 문서 ID가있는 용어를 저장하는 중간 테이블 "TermMatrix"를 작성해야합니다. 그런 다음 TermMatrix 테이블을 사용하여 TFIDF를 계산할 수 있습니다. 실시간에 가깝지만 실시간 TFIDF 출력을 원하면 "TF", "IDF"테이블을 생성하는 것이 좋습니다.
TF, IDF를 계산하려면 문서 ID가있는 용어를 저장하는 중간 테이블 "TermMatrix"를 작성해야합니다. 그런 다음 TermMatrix 테이블을 사용하여 TFIDF를 계산할 수 있습니다. 실시간에 가깝지만 실시간 TFIDF 출력을 원하면 "TF", "IDF"테이블을 생성하는 것이 좋습니다.
HBase를 사용하여 TFIDF를 계산하는 방법에 대한 블로그를 작성했습니다. http://ahikmat.blogspot.kr/2014/07/building-term-matrix-on-hbase.html
from https://stackoverflow.com/questions/10953731/calculate-tf-idf-of-documents-using-hbase-as-the-datasource by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] pyspark에서 hdfs 블록 크기를 변경하는 방법은 무엇입니까? (0) | 2019.08.02 |
---|---|
[HADOOP] RJDBC / RHive를 사용하여 R에서 원격 하이브 서버에 연결 (0) | 2019.08.02 |
[HADOOP] pyspark에서 그들을 수집 할 때 왜`binaryFiles` 파일이 비어 있습니까? (0) | 2019.08.02 |
[HADOOP] 창문에서 아마존의 탄력적 인 mapreduce (emr) 클러스터에서 mapreduce 작업을 수행하는 방법? (0) | 2019.08.02 |
[HADOOP] ClassNotFoundException org.apache.mahout.math.VectorWritable (0) | 2019.08.02 |