복붙노트

[HADOOP] BigTable에서 OLAP을 수행 할 수 있습니까?

HADOOP

BigTable에서 OLAP을 수행 할 수 있습니까?

과거에는 MySQL에서 실행되는 OLAP 큐브를 사용하여 WebAnalytics를 작성했습니다. 이제 OLAP 큐브는 내가 사용했던 방식으로 각 행이 기본적으로 측정 값 및 집계 된 측정 값 집합 인 큰 표 (ok, 조금 더 똑똑하게 저장 됨)입니다. 각 측정에는 일련의 측정 기준 (즉, 페이지 이름, 사용자 에이전트, IP 등)과 많은 값 (즉, 페이지 뷰 수, 방문자 수 등)이 있습니다.

이와 같은 테이블에서 실행하는 쿼리는 일반적으로 다음과 같은 형식입니다 (meta-SQL).

SELECT SUM(hits), SUM(bytes),
FROM MyCube
WHERE date='20090914' and pagename='Homepage' and browser!='googlebot'
GROUP BY hour

따라서 언급 한 필터를 사용하여 선택한 요일의 시간당 합계를 얻습니다. 한 가지 문제는이 큐브가 일반적으로 전체 테이블 스캔 (여러 가지 이유)을 의미한다는 것이 었습니다. 이는 크기를 (MiB에서) 실제로 만들 수 있다는 것을 의미했습니다.

저는 현재 하둡 등의 기능을 배우고 있습니다.

위 쿼리를 BigTable에서 mapreduce로 실행하면 충분히 쉽게 보입니다. 간단히 '시간'을 키로 설정하고지도에서 필터링하고 값을 합산하여 줄일 수 있습니다.

배치 모드 대신 BigTable 시스템에서 '실시간'(즉, 사용자 인터페이스와 사용자가 최대한 빨리 답변을 얻을 수 있음)에서 위와 같이 (또는 적어도 동일한 출력으로) 표시된 쿼리를 실행할 수 있습니까?

그렇지 않으면; BigTable / Hadoop / HBase / Hive 등의 영역에서 이와 같은 작업을 수행하기위한 적절한 기술은 무엇입니까?

해결법

  1. ==============================

    1.그것은 심지어 일종의 (일종의) 완료되었습니다.

    그것은 심지어 일종의 (일종의) 완료되었습니다.

    LastFm의 집계 / 요약 엔진 : http://github.com/zohmg/zohmg

    Google 검색에서 Google 코드 프로젝트 "mroll"이 표시되었지만 연락처 정보 (코드 없음, 아무것도 아님) 이외의 것은 없습니다. 그래도 그 사람에게 손을 내밀어 무슨 일이 일어나고 있는지 볼 수 있습니다. http://code.google.com/p/mroll/

  2. ==============================

    2.우리는 SQL 쿼리를 사전에 생성하고이를 적절한 Hbase 한정자에 매핑함으로써 HBase에서 대기 시간이 짧은 OLAP를 생성 할 수있었습니다. 자세한 내용은 아래 사이트를 방문하십시오.

    우리는 SQL 쿼리를 사전에 생성하고이를 적절한 Hbase 한정자에 매핑함으로써 HBase에서 대기 시간이 짧은 OLAP를 생성 할 수있었습니다. 자세한 내용은 아래 사이트를 방문하십시오.

    http://soumyajitswain.blogspot.in/2012/10/hbase-low-latency-olap.html

  3. ==============================

    3.내 대답은 HBase와 관련이 있지만 BigTable에도 똑같이 적용됩니다.

    내 대답은 HBase와 관련이 있지만 BigTable에도 똑같이 적용됩니다.

    Urban Airship의 오픈 소스 데이터 큐브는 내가 원하는 것에 가깝다고 생각합니다. 여기에서 그들의 발표를보십시오.

    Adobe는 또한 HBase로 "대기 시간이 적은 OLAP"을 수행하는 방법에 대한 몇 가지 프레젠테이션 (여기 및 여기)을 제공합니다.

  4. ==============================

    4.테이블 스캔 방식을 찾고 있다면 Google BigQuery를 고려해 보셨습니까? BigQuery는 대화 형 응답을 제공하는 뒷면에서 자동 확장을 수행합니다. Jordan Tigani는 2012 내부 Google I / O 이벤트에서 세션을 설명합니다.

    테이블 스캔 방식을 찾고 있다면 Google BigQuery를 고려해 보셨습니까? BigQuery는 대화 형 응답을 제공하는 뒷면에서 자동 확장을 수행합니다. Jordan Tigani는 2012 내부 Google I / O 이벤트에서 세션을 설명합니다.

    http://www.youtube.com/watch?v=QI8623HlYd4

    그것은 MapReduce가 아니지만 당신이 설명한 것과 같은 고속 테이블 스캔을 목표로합니다.

  5. ==============================

    5.Andrei Dragomir는 Adobe가 M / R 및 HBase에서 OLAP 기능을 수행하는 방법에 대해 흥미로운 이야기를 나눴습니다.

    Andrei Dragomir는 Adobe가 M / R 및 HBase에서 OLAP 기능을 수행하는 방법에 대해 흥미로운 이야기를 나눴습니다.

    동영상 : http://www.youtube.com/watch?v=5U3EnfiKs44

    슬라이드 : http://hstack.org/hbasecon-low-latency-olap-with-hbase/

  6. from https://stackoverflow.com/questions/1424132/can-olap-be-done-in-bigtable by cc-by-sa and MIT license