[HADOOP] 카산드라 / 하둡 / 로딩 및 처리 데이터를 돼지 디자인
HADOOP카산드라 / 하둡 / 로딩 및 처리 데이터를 돼지 디자인
나는 하둡, 카산드라, 돼지, MySQL을의 설정을 가지고
내 목표는 카산드라 과정을 1 개 개월의 데이터를 읽고 정기적으로 MySQL로 결과를 넣어하는 것입니다.
할 수있는 가장 좋은 방법은 무엇입니까.? 돼지 / CQL을 (CqlStorage를 사용)를 사용하여 카산드라에서로드하는 동안 내가 1 개월 또는 필터에 대한 돼지의 모든 데이터를로드하고 필터링 할 필요가있다.
여기에서 문제는, 난 산드 돼지로부터 로딩 CQL에 WHERE 절을 갖는 버그 갖는다 필터링해야하는 경우 (https://issues.apache.org/jira/browse/CASSANDRA-6151).
또는
돼지를 통해 모든 데이터 및 필터를로드의 또 다른 솔루션 문제는 데이터가 너무 커서 거의 2 억 기록입니다이며, 그렇게 무엇을 실행하는 돼지 스크립트에 의해 촬영 성능과 시간에 대한 경우, 모든 데이터를로드하는 더 나은 솔루션입니다.
해결법
from https://stackoverflow.com/questions/21698582/cassandra-hadoop-pig-design-for-loading-and-processing-data by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하둡은 예 항아리를 사전 설치 (0) | 2019.09.25 |
---|---|
[HADOOP] 7 윈도우에 하둡을 실행 (0) | 2019.09.25 |
[HADOOP] HBase를 REST 호출 - 점점 정크 문자 "\ X0A" (0) | 2019.09.25 |
[HADOOP] 이는지도 작업의 수를 결정하고 하이브에서 작업을 감소? (0) | 2019.09.25 |
[HADOOP] MongoDB의에서 HBase를 마이그레이션 (0) | 2019.09.25 |