복붙노트

[HADOOP] Hadoop MapReduce를 이용한 전산 언어학 프로젝트 아이디어

HADOOP

Hadoop MapReduce를 이용한 전산 언어학 프로젝트 아이디어

Computational Linguistics 과정에 대한 프로젝트를 수행해야합니다. Hadoop 맵 축소를 사용하여 작업 할만큼 충분히 집중적 인 흥미로운 "언어"문제가 있습니까? 솔루션이나 알고리즘은 "lingustic"도메인에서 몇 가지 통찰력을 시도하고 분석해야합니다. 그러나 큰 데이터 세트에 적용 할 수있어서 hadoop을 사용할 수 있습니다. hadoop을위한 파이썬 자연 언어 처리 툴킷이 있다는 것을 알고 있습니다.

해결법

  1. ==============================

    1.만약 당신이 "매우 특이한"언어 ( "계산 언어학의 제한된 양"이 수행되었다는 의미에서)이 큰 코로나를 가지고 있다면, 매우 대중적인 언어 (예 : 영어, 중국어, 아랍어, ...)은 완벽하게 적절한 프로젝트입니다 (특히 학업 환경에서 그렇습니다.하지만 IBM 업계와 마찬가지로 컴퓨팅 업계에 적합 할 수도 있습니다). 저는 IBM Research와 전산 언어학을 전공했을 때 코퍼스를 함께 사용하여 재미있는 마일리지를 얻었습니다. 이탈리아어, 그리고 [[비교적 새로운 IBM 과학 센터]] [Yorktown Heights]에있는 IBM Research 팀이 이미 영어를 위해 수행 한 작업과 매우 유사합니다.

    만약 당신이 "매우 특이한"언어 ( "계산 언어학의 제한된 양"이 수행되었다는 의미에서)이 큰 코로나를 가지고 있다면, 매우 대중적인 언어 (예 : 영어, 중국어, 아랍어, ...)은 완벽하게 적절한 프로젝트입니다 (특히 학업 환경에서 그렇습니다.하지만 IBM 업계와 마찬가지로 컴퓨팅 업계에 적합 할 수도 있습니다). 저는 IBM Research와 전산 언어학을 전공했을 때 코퍼스를 함께 사용하여 재미있는 마일리지를 얻었습니다. 이탈리아어, 그리고 [[비교적 새로운 IBM 과학 센터]] [Yorktown Heights]에있는 IBM Research 팀이 이미 영어를 위해 수행 한 작업과 매우 유사합니다.

    근면 한 작업은 일반적으로 그러한 코로나를 찾고 / 준비하는 것입니다. IBM 이탈리아에서 온전한 도움을 받았음에도 불구하고 관련된 데이터를 소유 한 출판사와 연락을 취하는 일에도 불구하고 제 작품의 가장 중요한 부분이었습니다.

    그래서 문제는 커지고, 당신 만이 대답 할 수 있습니다 : 어떤 조직에 액세스 권한이 있습니까? 특히 "비정상적인"언어로 액세스 권한을 획득 할 수 있습니까? 할 수있는 일은 예를 들어 영어입니다. 이미 인기있는 코퍼를 사용하면 소설과 재미있는 일을 할 수있는 기회는 물론 더 힘들지 만 당연히 일부는있을 수 있습니다.

    BTW, "쓰여진"텍스트를 처리하는 것에 대해 엄격하게 생각한다고 가정합니다. 음성 자료 (이상적으로 좋은 성적표가있는 자료)가있는 경우, 기회는 끝이 없을 것입니다 (예 : 음성 텍스트 처리에 대한 작업이 훨씬 적습니다. 예를 들어 동일한 원문에 다른 발음 원에 의한 발음 변형을 매개 변수화하는 것, 그러한 문제는 종종 학부 CL 과정에서도 언급되지 않습니다!).

  2. ==============================

    2.CL에서 하나의 연산 집약적 인 문제는 대규모 코퍼스에서 의미론을 추론합니다. 기본 개념은 텍스트의 큰 콜렉션을 취하여 단어들 (동의어, 반의어, hyponyms, 상위어 등) 사이의 의미 관계를 그들의 분포에서 추론하는 것이다.

    CL에서 하나의 연산 집약적 인 문제는 대규모 코퍼스에서 의미론을 추론합니다. 기본 개념은 텍스트의 큰 콜렉션을 취하여 단어들 (동의어, 반의어, hyponyms, 상위어 등) 사이의 의미 관계를 그들의 분포에서 추론하는 것이다.

    여기에는 많은 데이터 사전 처리가 포함되며 MapReduce 스타일 병렬 처리에 가장 적합한 NxN 비교와 가장 가까운 이웃 검색이 포함될 수 있습니다.

    이 자습서를 살펴보십시오.

    http://wordspace.collocations.de/doku.php/course:acl2010:start

  3. ==============================

    3.BioMed Central에서 출판 한 60,000 건의 OA 논문에서 300M 단어를 다운로드하십시오. 명제 태도 및 관련 감정 구조를 발견하도록 노력하십시오. 생물 의학 문헌은 살아있는 세계와 생물에 대한 형식적인 선언문을 만드는 데 어려움이 있기 때문에 헷지 및 관련 구조물로 가득 차있다. 즉 형태와 기능, 유전학 및 생화학.

    BioMed Central에서 출판 한 60,000 건의 OA 논문에서 300M 단어를 다운로드하십시오. 명제 태도 및 관련 감정 구조를 발견하도록 노력하십시오. 생물 의학 문헌은 살아있는 세계와 생물에 대한 형식적인 선언문을 만드는 데 어려움이 있기 때문에 헷지 및 관련 구조물로 가득 차있다. 즉 형태와 기능, 유전학 및 생화학.

    Hadoop에 대한 저의 생각은 고려해야 할 도구이지만 목표를 설정하는 중요한 작업을 수행 한 후에 고려해야한다는 것입니다. 귀하의 목표, 전략 및 데이터는 귀하가 컴퓨터를 어떻게 사용 하는지를 결정해야합니다. 연구에 네일 접근법을 찾아 망치를 조심하십시오.

    이것은 내 연구실이 힘든 일의 일부입니다.

  4. ==============================

    4.내가 언급 한대로 NLTK라는 파이썬 툴킷이 있습니다.이 툴킷은 Dumbo와 함께 Hadoop을 사용할 수 있습니다.

    내가 언급 한대로 NLTK라는 파이썬 툴킷이 있습니다.이 툴킷은 Dumbo와 함께 Hadoop을 사용할 수 있습니다.

    PyCon 2010은이 주제에 대해 좋은 대화를 나눴습니다. 아래 링크를 사용하여 강연에서 슬라이드에 액세스 할 수 있습니다.

  5. from https://stackoverflow.com/questions/2353582/computational-linguistics-project-idea-using-hadoop-mapreduce by cc-by-sa and MIT license