[HADOOP] 겸손한 자원을 사용하여 N-g 데이터 세트 구글 도서에 처리를 할 수있는 가장 실현 가능한 옵션은 무엇입니까?
HADOOP겸손한 자원을 사용하여 N-g 데이터 세트 구글 도서에 처리를 할 수있는 가장 실현 가능한 옵션은 무엇입니까?
나는 구글 도서의 N 그램 코퍼스에서, 각 대상 단어, 10,000 목표 단어와 수백 상황에 맞는 단어를 단어의 동시 발생 통계를 계산해야
아래는 전체 데이터 세트의 링크입니다 :
구글 N- 그램 뷰어
분명하게 알 수 있듯이 데이터베이스는 약 2.2TB의과 행의 몇 백 억이 포함되어 있습니다. 워드 동시 발생 통계치를 계산하기위한 I 타겟 및 컨텍스트 단어의 각 쌍에 대한 모든 데이터를 처리해야한다. 나는 현재 데이터의 일괄 처리를 위해 하이브와 하둡을 사용을 고려하고있다. 어떤 다른 실행 가능한 옵션이 고려하고있는 것은 학기 및 컴퓨팅 자원의 제한된 가용성의 시간 제약 학술 프로젝트입니다.
데이터에 대한 쿼리가 실시간으로주의 할 필요는 없습니다
해결법
-
==============================
1.하이브는 내장 된 UDF ngrams을 처리하는 https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation
하이브는 내장 된 UDF ngrams을 처리하는 https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation
from https://stackoverflow.com/questions/15249489/what-are-the-most-feasible-options-to-do-processing-on-google-books-n-gram-datas by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 의 감속기의 비정상적인 행동 하둡에지도-감소? (0) | 2019.10.12 |
---|---|
[HADOOP] 이상한 행동을 하둡 : 키에 대한 모든 값을하지 않는 기능을 감소 (0) | 2019.10.12 |
[HADOOP] 스파크 자바 DataFrame에 JavaRDD 변환 (0) | 2019.10.12 |
[HADOOP] HBase를 맵리 듀스는 : 감속기에서 HBase를로 쓰기 (0) | 2019.10.12 |
[HADOOP] 하이브 : 어떻게 출력 HiveQL을 사용하여 고유 한 기본 키를 SELECT 쿼리를 할까? (0) | 2019.10.12 |