로그 분석을위한 Amazon MapReduce 모범 사례

아파치, Nginx, Darwin (비디오 스트리밍 서버) 및 date / referrer / useragent별로 각 전달 된 파일에 대한 통계를 집계하여 생성 된 액세스 로그를 구문 분석하고 있습니다.

몇 시간에 걸쳐 생성되는 로그와 그 수는 가까운 시일 내에 급격히 증가 할 것이므로 Amazon Elastic MapReduce를 통해 분산 된 방식으로 이러한 종류의 데이터를 처리하는 것이 합리적이라고 생각합니다.

지금은 데이터를 처리하기 위해 매퍼 (mappers)와 감속기 (reducers)를 사용할 준비가되었으며 다음 프로세스로 전체 프로세스를 테스트했습니다.

필자는 수천 개의 자습서를 사용하여 수동으로 수행했는데, 아마존 ERM에 관한 인터넷에서 구할 수 있습니다.

다음에 무엇을해야합니까? 이 프로세스를 자동화하는 최선의 방법은 무엇입니까?

이 항목은 Amazon Elastic MapReduce를 사용하여 액세스 로그를 처리하려고 시도하지만 많은 자료 및 우수 사례를 찾을 수없는 사람들에게 유용 할 것으로 생각됩니다.

UPD : 단 하나의 마지막 질문은 여기에 있습니다.

Amazon Elastic MapReduce에서 제공하는 로그 처리 모범 사례는 무엇입니까?

해결법

[HADOOP] Spark는 원사 클러스터 exitCode = 13에서 실행됩니다. (0)	2019.07.12
[HADOOP] 엄청난 양의 데이터를 생성하는 방법? (0)	2019.07.12
[HADOOP] 매번 bash_profile을 소스 화해야하는 이유는 무엇입니까? (0)	2019.07.12
[HADOOP] Hadoop의 시퀀스 파일 (0)	2019.07.12
[HADOOP] Hive의 쉼표로 구분 된 값의 열 (0)	2019.07.12