복붙노트

[HADOOP] 카산드라 / 하둡 / 로딩 및 처리 데이터를 돼지 디자인

HADOOP

카산드라 / 하둡 / 로딩 및 처리 데이터를 돼지 디자인

나는 하둡, 카산드라, 돼지, MySQL을의 설정을 가지고

내 목표는 카산드라 과정을 1 개 개월의 데이터를 읽고 정기적으로 MySQL로 결과를 넣어하는 것입니다.

할 수있는 가장 좋은 방법은 무엇입니까.? 돼지 / CQL을 (CqlStorage를 사용)를 사용하여 카산드라에서로드하는 동안 내가 1 개월 또는 필터에 대한 돼지의 모든 데이터를로드하고 필터링 할 필요가있다.

여기에서 문제는, 난 산드 돼지로부터 로딩 CQL에 WHERE 절을 갖는 버그 갖는다 필터링해야하는 경우 (https://issues.apache.org/jira/browse/CASSANDRA-6151).

또는

돼지를 통해 모든 데이터 및 필터를로드의 또 다른 솔루션 문제는 데이터가 너무 커서 거의 2 억 기록입니다이며, 그렇게 무엇을 실행하는 돼지 스크립트에 의해 촬영 성능과 시간에 대한 경우, 모든 데이터를로드하는 더 나은 솔루션입니다.

해결법

    from https://stackoverflow.com/questions/21698582/cassandra-hadoop-pig-design-for-loading-and-processing-data by cc-by-sa and MIT license