복붙노트

[HADOOP] elasticsearch를 중앙 데이터 저장소로 사용

HADOOP

elasticsearch를 중앙 데이터 저장소로 사용

우리는 현재 elasticsearch를 사용하여 약 10M 문서에 대한 색인을 생성하고 검색합니다. 그것은 잘 작동하고 우리는 그 성능에 만족합니다. 탄성 검색 사용을 시작한 동료는 중앙 데이터 저장소로 사용할 수 있으며 다른 데이터 시스템 (예 : SQL Server, Hadoop / Hive)에서 데이터를 가져올 수 있다고 확신합니다. 나는 둘 다에 대한 지식이 너무 제한되어 있기 때문에 어떤 논쟁도하지 않았다. 그러나 나는 우려한다.

나는 elasticsearch의 데이터가 텍스트 검색에 효율적인 방식으로 저장된다는 것을 알고 있습니다. Hadoop은 파일 시스템처럼 데이터를 저장하지만 여러 데이터 노드로 블록을 확장 / 복제하는 데 효율적입니다. 따라서 내 생각에 Hadoop을 중앙 데이터 저장소로 사용하는 것이 더 유익한 것처럼 보입니다. 그런 다음 Hadoop의 데이터를 SQL, elasticsearch 등으로 푸시합니다.

Hadoop 및 elasticsearch 사용 사례에 대한 몇 가지 기사를 읽었으며 중앙 데이터 저장소로 Hadoop을 사용하는 것이 일반적인 것처럼 보입니다. 그러나 나는 elasticsearch가 괜찮은 대안이 될 수 없다는 것을 제시 할만한 것을 찾을 수 없다.

도와주세요!

해결법

  1. ==============================

    1.대부분의 사용자가 elasticsearch를 기본 데이터 저장소로 사용하지 못하게하는 것이 좋습니다. 네트워크 파티션으로 인해 클러스터가 녹을 때까지 잘 작동합니다. ES 전문가가 항상 설정 한 minimum_master_nodes와 같은 설정조차도 사용자를 저장하지 않습니다. Aphyr의 탁월한 분석을 Call Me Maybe 시리즈와 함께보십시오. http://aphyr.com/posts/317-call-me-maybe-elasticsearch

    대부분의 사용자가 elasticsearch를 기본 데이터 저장소로 사용하지 못하게하는 것이 좋습니다. 네트워크 파티션으로 인해 클러스터가 녹을 때까지 잘 작동합니다. ES 전문가가 항상 설정 한 minimum_master_nodes와 같은 설정조차도 사용자를 저장하지 않습니다. Aphyr의 탁월한 분석을 Call Me Maybe 시리즈와 함께보십시오. http://aphyr.com/posts/317-call-me-maybe-elasticsearch

    eliasah는 맞습니다. 유스 케이스에 따라 다르지만 데이터 (및 작업)가 중요한 경우 멀리 떨어져 있어야합니다.

    데이터를 저장하고 동기화하여 데이터를 검색 할 수 있도록하는 데 중점을 둡니다. 그것은 여분의 복잡성과 자원을 추가하지만, 더 좋은 밤 나머지가 될 것입니다 :)

    이것에 대해 알아볼 방법이 많이 있습니다. elasticsearch가 필요한 모든 작업을 수행하는 경우, 카파가 모든 이벤트를 클러스터로 진행하여 문제가 발생하면 다시 재생할 수 있습니다. 나는 persistence도 수행하는 elasticsearch에 비동기 처리 파이프 라인을 제공하므로이 접근법을 좋아합니다.

  2. ==============================

    2.모든 데이터베이스 배포의 경우와 마찬가지로 실제로 특정 응용 프로그램에 따라 다릅니다.

    모든 데이터베이스 배포의 경우와 마찬가지로 실제로 특정 응용 프로그램에 따라 다릅니다.

    Elasticsearch는 Apache Lucene 위에 구축 된 훌륭한 오픈 소스 검색 엔진입니다. 기능과 업그레이드를 통해 기본적으로 검색 방식의 메소드와 일반적인 데이터베이스 CRUD와 유사한 명령을 사용하여 액세스 할 수있는 스키마가없는 JSON 데이터 저장소와 동일한 기능을 수행 할 수 있습니다.

    그럼에도 불구하고 Elasticsearch가 가져 오는 모든 장점에는 여전히 몇 가지 주요 단점이 있습니다.

    이러한 문제를 해결할 수 있다면 Elasticsearch를 기본 데이터 저장소로 사용할 수없는 이유는 없습니다. 데이터를 복제 할 필요가 없기 때문에 실제로는 복잡성을 줄이고 성능을 향상시킬 수 있지만 다시 특정 사용 사례에 따라 다릅니다.

    언제나 그렇듯이 이점을 평가하고 몇 가지 실험을 해보고 가장 적합한 것이 무엇인지 확인하십시오.

    면책 조항 :이 답변은 Elasticsearch 1.x 시리즈를 위해 오래 전에 작성되었습니다. 이 비평가들은 아직도 2.x 시리즈와 함께합니다. 그러나 2.x 시리즈에는 Shield와 같은 보안 성이 뛰어난 예제, Logstash 또는 Beats 등의 전송 클라이언트와 같은보다 성숙한 도구, API 및 플러그인이 함께 제공되므로 Elastic에서 작업하고 있습니다.

  3. from https://stackoverflow.com/questions/24412762/using-elasticsearch-as-central-data-repository by cc-by-sa and MIT license