[HADOOP] HDFS에 웹 사이트에서 직접 데이터를 얻기
HADOOPHDFS에 웹 사이트에서 직접 데이터를 얻기
어떻게 HDFS에서 동시에 웹 사이트에 입력되는 데이터를 직접받을 수 있나요?
해결법
-
==============================
1.고 가용성 읽기와 쓰기를 가질 계획이라면, 당신은 데이터를 저장하는 HBase를 사용할 수 있습니다.
고 가용성 읽기와 쓰기를 가질 계획이라면, 당신은 데이터를 저장하는 HBase를 사용할 수 있습니다.
당신이 REST API를 사용하는 경우는 HBase를 테이블에 저장할 수 있습니다 HBase를 REST API를 헌신하고, 당신은 HBase를 직접 데이터를 저장할 수 있습니다.
1) 선형 및 확장 모듈. 2) 엄격하게 일관성있는 읽기 및 쓰기. 테이블 3) 자동 및 구성 샤딩.
HBase를 대한 자세한 내용은 : - https://hbase.apache.org/
어떤 소스에서 HDFS에 일부 스트리밍 데이터를 원하는 다른 경우에는 합류 플랫폼에 볼 수 (카프카를 있도록 내장 된)과 HDFS로 저장할 수 있습니다.
-
==============================
2.이것은 전적으로 당신이 어떤 데이터를 어떻게 기꺼이 당신은 하둡의 상단에 별도의 도구를 유지하는 데 있습니다에 따라 달라집니다.
이것은 전적으로 당신이 어떤 데이터를 어떻게 기꺼이 당신은 하둡의 상단에 별도의 도구를 유지하는 데 있습니다에 따라 달라집니다.
그냥 로그 파일에서 이벤트를 수용하는 경우, 수로, Fluentd에, 또는 Filebeat는 최고의 옵션입니다.
당신은 클릭 또는 마우스의 움직임과 같은 클라이언트 측 이벤트를 동의하는 경우, 예를 들어, 당신은 그 요청을 받아 일부 백엔드 서버가 필요합니다. 예를 들어, 수로 TCP 소스,하지만 당신은 아마 당신의 이벤트 채널에 임의의 외부 메시지를 방지하기 위해이 서비스의 앞에 인증 엔드 포인트의 몇 가지 유형을합니다.
또한 카프카를 사용할 수 있습니다. (플루에 의해) 카프카 REST 프록시은 REST 요청을 수락하고, 카프카의 항목을 생성하는 데 사용할 수 있습니다. (또한 플루에 의한) 카프카 HDFS 연결은 카프카에서 소비 할 수 및 많은 수로처럼 거의 실시간으로 HDFS에 메시지를 게시
다른 옵션은 아파치 Nifi 또는 Streamsets을 포함한다. 다시 말하지만, HDFS 대상 프로세서가있는 TCP 또는 HTTP 이벤트 소스 리스너를 사용하여
from https://stackoverflow.com/questions/49726697/getting-data-directly-from-a-website-to-a-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 맵리 듀스를 사용하여 암호로 보호 된 zip 파일을 처리하면 [복제] (0) | 2019.10.23 |
---|---|
[HADOOP] MapReduce의 응집 [폐쇄] (0) | 2019.10.23 |
[HADOOP] 어떻게 하이브에서 백분위를 구현하는 방법? (0) | 2019.10.22 |
[HADOOP] 설치 및 하둡에 elasticsearch 구성? (0) | 2019.10.22 |
[HADOOP] 하둡 자바 파일을 컴파일 (0) | 2019.10.22 |