복붙노트

[HADOOP] 겸손한 자원을 사용하여 N-g 데이터 세트 구글 도서에 처리를 할 수있는 가장 실현 가능한 옵션은 무엇입니까?

HADOOP

겸손한 자원을 사용하여 N-g 데이터 세트 구글 도서에 처리를 할 수있는 가장 실현 가능한 옵션은 무엇입니까?

나는 구글 도서의 N 그램 코퍼스에서, 각 대상 단어, 10,000 목표 단어와 수백 상황에 맞는 단어를 단어의 동시 발생 통계를 계산해야

아래는 전체 데이터 세트의 링크입니다 :

구글 N- 그램 뷰어

분명하게 알 수 있듯이 데이터베이스는 약 2.2TB의과 행의 몇 백 억이 포함되어 있습니다. 워드 동시 발생 통계치를 계산하기위한 I 타겟 및 컨텍스트 단어의 각 쌍에 대한 모든 데이터를 처리해야한다. 나는 현재 데이터의 일괄 처리를 위해 하이브와 하둡을 사용을 고려하고있다. 어떤 다른 실행 가능한 옵션이 고려하고있는 것은 학기 및 컴퓨팅 자원의 제한된 가용성의 시간 제약 학술 프로젝트입니다.

데이터에 대한 쿼리가 실시간으로주의 할 필요는 없습니다

해결법

  1. ==============================

    1.하이브는 내장 된 UDF ngrams을 처리하는 https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation

    하이브는 내장 된 UDF ngrams을 처리하는 https://cwiki.apache.org/Hive/statisticsanddatamining.html#StatisticsAndDataMining-ngrams%2528%2529andcontextngrams%2528%2529%253ANgramfrequencyestimation

  2. from https://stackoverflow.com/questions/15249489/what-are-the-most-feasible-options-to-do-processing-on-google-books-n-gram-datas by cc-by-sa and MIT license