복붙노트

[HADOOP] HDFS에 웹 사이트에서 직접 데이터를 얻기

HADOOP

HDFS에 웹 사이트에서 직접 데이터를 얻기

어떻게 HDFS에서 동시에 웹 사이트에 입력되는 데이터를 직접받을 수 있나요?

해결법

  1. ==============================

    1.고 가용성 읽기와 쓰기를 가질 계획이라면, 당신은 데이터를 저장하는 HBase를 사용할 수 있습니다.

    고 가용성 읽기와 쓰기를 가질 계획이라면, 당신은 데이터를 저장하는 HBase를 사용할 수 있습니다.

    당신이 REST API를 사용하는 경우는 HBase를 테이블에 저장할 수 있습니다 HBase를 REST API를 헌신하고, 당신은 HBase를 직접 데이터를 저장할 수 있습니다.

    1) 선형 및 확장 모듈. 2) 엄격하게 일관성있는 읽기 및 쓰기. 테이블 3) 자동 및 구성 샤딩.

    HBase를 대한 자세한 내용은 : - https://hbase.apache.org/

    어떤 소스에서 HDFS에 일부 스트리밍 데이터를 원하는 다른 경우에는 합류 플랫폼에 볼 수 (카프카를 있도록 내장 된)과 HDFS로 저장할 수 있습니다.

  2. ==============================

    2.이것은 전적으로 당신이 어떤 데이터를 어떻게 기꺼이 당신은 하둡의 상단에 별도의 도구를 유지하는 데 있습니다에 따라 달라집니다.

    이것은 전적으로 당신이 어떤 데이터를 어떻게 기꺼이 당신은 하둡의 상단에 별도의 도구를 유지하는 데 있습니다에 따라 달라집니다.

    그냥 로그 파일에서 이벤트를 수용하는 경우, 수로, Fluentd에, 또는 Filebeat는 최고의 옵션입니다.

    당신은 클릭 또는 마우스의 움직임과 같은 클라이언트 측 이벤트를 동의하는 경우, 예를 들어, 당신은 그 요청을 받아 일부 백엔드 서버가 필요합니다. 예를 들어, 수로 TCP 소스,하지만 당신은 아마 당신의 이벤트 채널에 임의의 외부 메시지를 방지하기 위해이 서비스의 앞에 인증 엔드 포인트의 몇 가지 유형을합니다.

    또한 카프카를 사용할 수 있습니다. (플루에 의해) 카프카 REST 프록시은 REST 요청을 수락하고, 카프카의 항목을 생성하는 데 사용할 수 있습니다. (또한 플루에 의한) 카프카 HDFS 연결은 카프카에서 소비 할 수 및 많은 수로처럼 거의 실시간으로 HDFS에 메시지를 게시

    다른 옵션은 아파치 Nifi 또는 Streamsets을 포함한다. 다시 말하지만, HDFS 대상 프로세서가있는 TCP 또는 HTTP 이벤트 소스 리스너를 사용하여

  3. from https://stackoverflow.com/questions/49726697/getting-data-directly-from-a-website-to-a-hdfs by cc-by-sa and MIT license