복붙노트

[HADOOP] 대용량 데이터-저장 및 쿼리 [닫기]

HADOOP

대용량 데이터-저장 및 쿼리 [닫기]

약 3 억 건의 거대한 데이터가 있으며 3-6 개월마다 업데이트됩니다. 정보를 얻기 위해이 데이터를 계속 (실시간으로) 쿼리해야합니다 .RDBMS (mysql) 옵션 또는 Hadoop과 같은 다른 옵션이 더 좋을까요?

해결법

  1. ==============================

    1.300M 레코드는 일반 관계형 데이터베이스의 범위 내에 있으며 인덱스를 올바르게 사용하면 라이브 쿼리에 아무런 문제가 없습니다.

    300M 레코드는 일반 관계형 데이터베이스의 범위 내에 있으며 인덱스를 올바르게 사용하면 라이브 쿼리에 아무런 문제가 없습니다.

    Hadoop은 실제로 고 분산되고 중복 된 데이터가 필요하지 않으면 과잉으로 들리며 문제가 발생하거나 최적화가 필요한 경우 지원을 찾기가 더 어려워집니다.

  2. ==============================

    2.글쎄, 700M 이상의 레코드가있는 일부 테이블이있는 PostgreSQL 데이터베이스가 몇 개 있으며 항상 업데이트됩니다.

    글쎄, 700M 이상의 레코드가있는 일부 테이블이있는 PostgreSQL 데이터베이스가 몇 개 있으며 항상 업데이트됩니다.

    해당 테이블의 쿼리는 문제없이 매우 빠르게 (몇 밀리 초) 작동합니다. 이제 내 데이터는 매우 간단하며 쿼리하는 필드에 대한 색인이 있습니다.

    따라서 모든 쿼리는 어떤 종류의 쿼리를 수행 할 것인지, 빠른 디스크를 사용할 수있는 충분한 돈이 있는지에 달려 있습니다.

  3. ==============================

    3.다른 사람들이 말했듯이 현대 RDBMS는 쿼리 및 스키마에 따라 이러한 테이블을 처리 할 수 ​​있습니다 (일부 최적화가 이루어져야 함). 날짜 열과 같이 행을 분할하기에 적합한 키가있는 경우 분할 / 샤딩 기술을 사용하면 테이블을 여러 작은 테이블로 분할 할 수 있습니다.

    다른 사람들이 말했듯이 현대 RDBMS는 쿼리 및 스키마에 따라 이러한 테이블을 처리 할 수 ​​있습니다 (일부 최적화가 이루어져야 함). 날짜 열과 같이 행을 분할하기에 적합한 키가있는 경우 분할 / 샤딩 기술을 사용하면 테이블을 여러 작은 테이블로 분할 할 수 있습니다.

    언젠가 여기에서 물었던 질문에서 그 및 기타 스케일링 기술에 대한 자세한 내용을 볼 수 있습니다-MySQL 용 스케일링 솔루션 (복제, 클러스터링)

  4. ==============================

    4.3 억 건의 레코드는 Oracle, SQL Server, DB2와 같은 최고급 RDBMS에 문제가되지 않아야합니다. 나는 mySQL에 대해 확신하지 못하지만 요즘 꽤 큰 데이터베이스에 사용되고 있다고 확신한다.

    3 억 건의 레코드는 Oracle, SQL Server, DB2와 같은 최고급 RDBMS에 문제가되지 않아야합니다. 나는 mySQL에 대해 확신하지 못하지만 요즘 꽤 큰 데이터베이스에 사용되고 있다고 확신한다.

  5. ==============================

    5.300 백만은 요즘 정말로 크지 않습니다 :-).

    300 백만은 요즘 정말로 크지 않습니다 :-).

    대부분 쿼리하는 경우 쿼리가 어떤 형태로 수행되는지 알면 적절한 인덱스를 가진 MySQL 테이블이 제대로 작동합니다.

    쿼리를 실행하는 동안 지속적으로 업데이트를 지속적으로 적용하는 경우 동시 처리가 향상되므로 PostgreSQL을 선택하십시오.

    회사에서 비용을 지출하려는 경우 MS SQLServer, Sybase, Oracle 및 DB2가 모두 이러한 볼륨을 쉽게 처리합니다.

    반면에 구조화되지 않은 데이터에 대해 진정한 자유 형식 쿼리를 수행하려는 경우 Hadoop 또는 이와 유사한 방법이 더 좋습니다.

  6. from https://stackoverflow.com/questions/352895/large-data-storage-and-query by cc-by-sa and MIT license