복붙노트

[HADOOP] 스트리밍 데이터 및 Hadoop? (하둡 스트리밍이 아님)

HADOOP

스트리밍 데이터 및 Hadoop? (하둡 스트리밍이 아님)

MapReduce 접근 방식을 사용하여 HTTP를 통해 액세스되는 데이터의 연속적인 스트림을 분석하고 싶습니다. 그래서 Apache Hadoop을 살펴 보았습니다. 안타깝게도 Hadoop은 새로운 데이터를 도착한 소비자에게 전달할 수있는 것보다 고정 된 크기의 입력 파일로 작업을 시작할 것으로 예상됩니다. 이게 사실인가요? 아니면 제가 빠진 것이 있습니까? 열린 소켓에서 데이터를 읽는 다른 MapReduce 도구가 있습니까? 여기서는 확장 성이 문제이므로 MapReducer에서 지저분한 병렬 처리 작업을 처리하도록하는 것이 좋습니다.

저는 Cascading으로 놀았으며 HTTP를 통해 액세스되는 정적 파일에서 작업을 수행 할 수있었습니다. 그러나 실제로이 문제는 해결되지 않았습니다. 나는 데이터의 새 덩어리가 준비 될 때마다 새로운 작업을 시작하기 위해 Hadoop 파일 시스템의 어딘가에서 데이터를 덤프하고 워치 독을 작성하는 중간 단계로 컬을 사용할 수 있지만 더러운 해킹입니다. 이것을하기위한 좀 더 우아한 방법이 있어야합니다. 어떤 아이디어?

해결법

  1. ==============================

    1.설명하는 해킹은 일을 처리하는 표준 방법입니다. Hadoop은 근본적으로 배치 지향 시스템입니다 (한 가지만, 데이터가 끝나지 않으면 Reducers는 시작할 수 없습니다. 맵 단계가 완료됩니다).

    설명하는 해킹은 일을 처리하는 표준 방법입니다. Hadoop은 근본적으로 배치 지향 시스템입니다 (한 가지만, 데이터가 끝나지 않으면 Reducers는 시작할 수 없습니다. 맵 단계가 완료됩니다).

    로그를 회전하십시오. 회전 시키면 HDFS로 덤프됩니다. 워치 독 프로세스 (ZooKeeper를 사용하여 조정 된 분산 된 프로세스 일 수도 있음)가 덤프 지점을 모니터링하고 새로운 처리 작업을 시작하십시오. 작업이 오버 헤드를 충 분히 충당 할만큼 큰 입력에서 실행되도록하고 싶을 것입니다.

    Hbase는 사용자 삽입 이미지의 연속 스트림을 허용하기 때문에 사용자에게 흥미로운 하웁 생태계의 BigTable 클론입니다. 그러나 배치 모드에서 분석 쿼리를 실행해야합니다.

  2. ==============================

    2.http://s4.io/는 어떨까요? 스트리밍 데이터를 처리하기 위해 만들어졌습니다.

    http://s4.io/는 어떨까요? 스트리밍 데이터를 처리하기 위해 만들어졌습니다.

    Storm - 분산 및 내결함성 실시간 계산 : 스트림 처리, 연속 계산, 분산 RPC 등

  3. ==============================

    3.Esper CEP (http://esper.codehaus.org/)를 살펴보아야합니다.

    Esper CEP (http://esper.codehaus.org/)를 살펴보아야합니다.

  4. ==============================

    4.Yahoo S4 http://s4.io/

    Yahoo S4 http://s4.io/

    맵 축소와 같은 실시간 스트림 컴퓨팅을 제공합니다.

  5. ==============================

    5.트위터의 폭풍은 당신이 필요로하는 것입니다. 시도해 볼 수 있습니다!

    트위터의 폭풍은 당신이 필요로하는 것입니다. 시도해 볼 수 있습니다!

  6. ==============================

    6.여기에 여러 옵션이 있습니다. 솔루션으로 Kafka와 Storm + (Hadoop 또는 NoSql)의 조합을 제안합니다. 우리는 이미 오픈 소스 도구를 사용하여 빅 데이터 플랫폼을 구축했으며, 매우 잘 작동합니다.

    여기에 여러 옵션이 있습니다. 솔루션으로 Kafka와 Storm + (Hadoop 또는 NoSql)의 조합을 제안합니다. 우리는 이미 오픈 소스 도구를 사용하여 빅 데이터 플랫폼을 구축했으며, 매우 잘 작동합니다.

  7. ==============================

    7.사용 사례는 Hadoop을 사용하여 웹 크롤러를 작성하는 것과 유사하게 들립니다. HTTP를 통해 원격 페이지를 가져 오기 위해 열린 소켓에서 데이터 스트림이 천천히 되돌아옵니다.

    사용 사례는 Hadoop을 사용하여 웹 크롤러를 작성하는 것과 유사하게 들립니다. HTTP를 통해 원격 페이지를 가져 오기 위해 열린 소켓에서 데이터 스트림이 천천히 되돌아옵니다.

    그렇다면 왜 웹 페이지를 가져 오는 것이 맵 축소로 잘 맵핑되지 않는지를 참조하십시오. 그리고 Bixo에서 FetcherBuffer 클래스를 확인해보십시오.이 클래스는 감속기 (Cascading을 통해)에서 스레드 접근 방식을 구현하여 이러한 유형의 문제를 해결합니다.

  8. ==============================

    8.스트림 마이닝에서 사용하기위한 Hadoop의 주된 문제는 먼저 HFDS를 디스크로 사용하고 디스크 작업으로 대기 시간을 가져 와서 스트림에서 데이터가 누락된다는 사실입니다. 둘째, 파이프 라인이 평행하지 않다는 것입니다. Map-reduce는 일반적으로 스트림 데이터의 경우와 같이 인스턴스가 아닌 데이터의 일괄 처리에 대해 작동합니다.

    스트림 마이닝에서 사용하기위한 Hadoop의 주된 문제는 먼저 HFDS를 디스크로 사용하고 디스크 작업으로 대기 시간을 가져 와서 스트림에서 데이터가 누락된다는 사실입니다. 둘째, 파이프 라인이 평행하지 않다는 것입니다. Map-reduce는 일반적으로 스트림 데이터의 경우와 같이 인스턴스가 아닌 데이터의 일괄 처리에 대해 작동합니다.

    나는 최근에 HDFS를 우회하여 첫 번째 문제를 명백히 다루고 객체 데이터베이스에서 메모리 내 계산을 수행하는 M3에 대한 기사를 읽었습니다. 두 번째 문제는 더 이상 일괄 적으로 수행되지 않는 증분 학습자를 사용하고 있습니다. 그것을 확인할 가치가 M3 : 스트림 처리 on 주 메모리 MapReduce. 이 M3의 소스 코드 나 API를 어디에서 발견 할 수 없었습니다. 누군가이 링크를 공유하고 싶다면 여기를 클릭하십시오.

    또한 Hadoop Online은 M3와 동일한 문제를 해결하기위한 또 다른 프로토 타입입니다. Hadoop Online

    그러나 Apache Storm이이 문제의 핵심 솔루션이지만 충분하지는 않습니다. map-reduce 권한이 필요합니다. 여기에 SAMOA라는 라이브러리가 필요합니다. 실제로는 mahout이 부족한 온라인 학습을위한 훌륭한 알고리즘이 있습니다.

  9. ==============================

    9.몇 가지 성숙한 스트림 처리 프레임 워크와 제품을 시장에서 구할 수 있습니다. 오픈 소스 프레임 워크는 예를 들어. Apache Storm 또는 Apache Spark (둘 모두 Hadoop에서 실행 가능) IBM InfoSphere Streams 또는 TIBCO StreamBase와 같은 제품을 사용할 수도 있습니다.

    몇 가지 성숙한 스트림 처리 프레임 워크와 제품을 시장에서 구할 수 있습니다. 오픈 소스 프레임 워크는 예를 들어. Apache Storm 또는 Apache Spark (둘 모두 Hadoop에서 실행 가능) IBM InfoSphere Streams 또는 TIBCO StreamBase와 같은 제품을 사용할 수도 있습니다.

    스트림 처리 및이 모든 프레임 워크와 제품에 대해 자세히 설명하는 InfoQ 기사를 살펴보십시오. Hadoop과 함께 실시간 스트림 처리 / 스트리밍 분석. 이 기사는 Hadoop을 보완하는 방법을 설명합니다.

    By : Oracle이나 TIBCO와 같은 많은 소프트웨어 공급 업체는 일괄 처리 대신 실시간으로 처리해야하는 것처럼이 스트림 처리 / 스트리밍 분석 방식을 "큰 데이터"대신 "빠른 데이터"라고합니다.

  10. ==============================

    10.Apache Spark Streaming을 시도해야합니다. 그것은 당신의 목적을 위해 잘 작동해야합니다.

    Apache Spark Streaming을 시도해야합니다. 그것은 당신의 목적을 위해 잘 작동해야합니다.

  11. from https://stackoverflow.com/questions/1217850/streaming-data-and-hadoop-not-hadoop-streaming by cc-by-sa and MIT license