기상 데이터의 큰 데이터 세트를 저장하고 쿼리하는 더 나은 방법은 무엇입니까?

엄청난 양의 기상 데이터 (몇 TB)를 저장하고 쿼리하는 편리한 방법을 찾고 있습니다. 질문 중간의 데이터 유형에 대한 추가 정보.

이전에는 MongoDB의 방향을보고있었습니다 (저는 이전의 많은 프로젝트에서이 프로젝트를 사용하고 있었고 편안함을 느꼈습니다).하지만 최근에는 HDF5 데이터 형식에 대해 알아 냈습니다. 그것에 대해 읽고, 나는 Mongo와 몇 가지 유사점을 발견했다.

Mongo에서는 배열과 임베디드 객체와 비슷하게 보이며 데이터 쿼리를위한 인덱스도 지원합니다.

자료:

특정 지역은 작은 사각형으로 나뉩니다. 센서의 각 교차점에는 점 (점)이 있습니다.

이 센서는 X 분마다 다음 정보를 수집합니다.

그것은 또한 다른 높이 (0m, 10m, 25m)에 대해 이것을 수집합니다. 항상 높이는 같지 않습니다. 또한 각 센서에는 일종의 메타 정보가 있습니다.

이것을 주면, 나는 한 원소의 크기가 1Mb보다 클 것이라고 기대하지 않는다. 또한 한 곳에서 모든 데이터를 저장하기에 충분한 저장 공간을 가지고 있습니다 (그렇게하려면 샤딩이 필요 없음을 이해하는 한)

데이터 작업. 데이터와 상호 작용할 수있는 몇 가지 방법이 있습니다.

더 나은 접근 방법에 대한 질문은 권장되지 않지만 경험이 풍부한 사용자의 조언을 구하고 있습니다. 궁금한 사항이 있으시면 답변 해 주시면 감사하겠습니다.

P.S 나는 흥미로운 토론을 검토했다. hdf-forum, hdf5에서 검색, 기상 데이터 저장

해결법

==============================
1.어려운 질문입니다. 확실한 답을 줄 수 있는지는 잘 모르겠지만 HDF5 / pyTables 및 NoSQL 데이터베이스 모두에 대한 경험이 있습니다. 다음은 몇 가지 생각입니다.

어려운 질문입니다. 확실한 답을 줄 수 있는지는 잘 모르겠지만 HDF5 / pyTables 및 NoSQL 데이터베이스 모두에 대한 경험이 있습니다. 다음은 몇 가지 생각입니다.

귀하의 데이터는 일반적으로 HDF5에 저장하기에 적합하다고 생각합니다. R 또는 Numpy / Scipy를 통해 통계 분석을 수행 할 수도 있습니다. 그러나 hybdrid에 대해서도 생각할 수 있습니다. 원시 벌크 데이터를 HDF5에 저장하고 MongoDB를 사용하여 메타 데이터 또는 자주 사용되는 특정 값을 캐싱합니다.
==============================
2.이 어레이 데이터베이스에 NetCDF / HDF5를로드하는 것이 문제가되지 않는다면 SciDB를 시도 할 수 있습니다. 데이터 집합이 매우 큰 경우 데이터로드 단계에 많은 시간이 소요됩니다. 나는 이것이 모든 데이터베이스에 문제가 될까봐 걱정된다. 어쨌든 SciDB는 필요한 분석을 지원할 수있는 R 패키지도 제공합니다.

이 어레이 데이터베이스에 NetCDF / HDF5를로드하는 것이 문제가되지 않는다면 SciDB를 시도 할 수 있습니다. 데이터 집합이 매우 큰 경우 데이터로드 단계에 많은 시간이 소요됩니다. 나는 이것이 모든 데이터베이스에 문제가 될까봐 걱정된다. 어쨌든 SciDB는 필요한 분석을 지원할 수있는 R 패키지도 제공합니다.

또는 HDF5를 다른 것으로 변환하지 않고 쿼리를 수행하려는 경우 여기에서 제품을 사용할 수 있습니다. http://www.cse.ohio-state.edu/~wayi/papers/HDF5_SQL.pdf 또한 선택 쿼리를 효율적으로 수행하려면 index를 사용해야합니다. 집계 조회를 실시간으로 (초 단위로) 수행하려면 대략적인 집계를 고려하십시오. 우리 그룹은 이러한 기능을 지원하는 몇 가지 제품을 개발했습니다.

통계 분석의 관점에서 볼 때, 그 대답은 분석의 복잡성에 달려 있다고 생각합니다. 엔트로피 또는 상관 계수와 같은 것을 계산하는 것이 필요하다면 실시간으로 처리 할 수있는 제품이 있습니다. 분석이 매우 복잡하고 임시적인 경우 MapReduce 프레임 워크에서 과학 데이터를 처리 할 수있는 SciHadoop 또는 SciMATE를 고려할 수 있습니다. 그러나 SciHadoop이 현재 HDF5를 직접 지원할 수 있는지 확실하지 않습니다.

from https://stackoverflow.com/questions/16907195/what-is-a-better-approach-of-storing-and-querying-a-big-dataset-of-meteorologica by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] kubernetes vs yarn / hadoop 생태계에 불꽃을 일으킨다. (0)	2019.07.14
[HADOOP] MapReduce를 사용한 순열 (0)	2019.07.14
[HADOOP] 밖에서 카프카를 연결하는 문제 (0)	2019.07.14
[HADOOP] 사육사 오류에 대한 Hbase 연결 (0)	2019.07.14
[HADOOP] spark-submit (클러스터 모드) 할 HDFS에있는 typesafe 구성 파일을 추가하는 방법은 무엇입니까? (0)	2019.07.14

복붙노트

[HADOOP] 기상 데이터의 큰 데이터 세트를 저장하고 쿼리하는 더 나은 방법은 무엇입니까?

기상 데이터의 큰 데이터 세트를 저장하고 쿼리하는 더 나은 방법은 무엇입니까?

해결법

1.어려운 질문입니다. 확실한 답을 줄 수 있는지는 잘 모르겠지만 HDF5 / pyTables 및 NoSQL 데이터베이스 모두에 대한 경험이 있습니다. 다음은 몇 가지 생각입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바