Hadoop과 MySQL 통합

우리는 성능 향상을 위해 시스템에 Hadoop을 구현하고자합니다.

프로세스는 다음과 같이 작동합니다. Hadoop은 MySQL 데이터베이스에서 데이터를 수집 한 다음 처리합니다. 출력은 다시 MySQL 데이터베이스로 내보내집니다.

이것은 좋은 구현입니까? 이로 인해 시스템의 전반적인 성능이 향상됩니까? 요구 사항은 무엇이며 이전에이 작업을 수행 했습니까? 좋은 지침서가 도움이 될 것입니다.

감사

해결법

==============================
1.알다시피 그것은 정규적인 사용법은 아닙니다. 다음 시나리오에서 의미가 있습니다. a) 기존 파티션과 같이 입력에 데이터를 분할하는 좋은 방법이있는 경우. b) 각 파티션의 처리는 상대적으로 무겁다. 파티션 당 최소 10 초의 CPU 시간을 부여합니다. 두 가지 조건이 모두 충족되면 데이터 처리를 위해 원하는 CPU 처리량을 적용 할 수 있습니다. 당신이 간단한 검사 또는 집합을하고 있다면 - 나는 당신이 아무것도 얻지 못할 것이라고 생각합니다. 반면에 - 각 파티션에서 CPU 집약적 인 알고리즘을 실행하려면 실제로 이득을 얻을 수 있습니다. 또한 별도의 사례를 언급 할 것입니다. 처리에 대규모 데이터 정렬이 필요한 경우입니다. MySQL이 수십억 개의 레코드를 정렬하는 데는 좋지 않을 것이라고 생각합니다. 하둡이 할거야.

알다시피 그것은 정규적인 사용법은 아닙니다. 다음 시나리오에서 의미가 있습니다. a) 기존 파티션과 같이 입력에 데이터를 분할하는 좋은 방법이있는 경우. b) 각 파티션의 처리는 상대적으로 무겁다. 파티션 당 최소 10 초의 CPU 시간을 부여합니다. 두 가지 조건이 모두 충족되면 데이터 처리를 위해 원하는 CPU 처리량을 적용 할 수 있습니다. 당신이 간단한 검사 또는 집합을하고 있다면 - 나는 당신이 아무것도 얻지 못할 것이라고 생각합니다. 반면에 - 각 파티션에서 CPU 집약적 인 알고리즘을 실행하려면 실제로 이득을 얻을 수 있습니다. 또한 별도의 사례를 언급 할 것입니다. 처리에 대규모 데이터 정렬이 필요한 경우입니다. MySQL이 수십억 개의 레코드를 정렬하는 데는 좋지 않을 것이라고 생각합니다. 하둡이 할거야.
==============================
2.Sqoop은 관계형 데이터베이스에서 Hadoop으로 데이터를 가져 오기 위해 설계된 도구입니다.

Sqoop은 관계형 데이터베이스에서 Hadoop으로 데이터를 가져 오기 위해 설계된 도구입니다.

https://github.com/cloudera/sqoop/wiki/

및 그것에 관한 비디오 http://www.cloudera.com/blog/2009/12/hadoop-world-sqoop-database-import-for-hadoop/
==============================
3.Hadoop은 주로 대용량의 semi 구조화 된 데이터에서 배치 기반 작업에 사용됩니다. 가장 짧은 작업조차도 수분의 순서로 배치됩니다. 어떤 종류의 성능 문제가 있습니까? 데이터 변환 또는보고를 기반으로합니다. 이 아키텍처가 도움이되거나 상황을 악화시킬 수 있다는 점에 따라.

Hadoop은 주로 대용량의 semi 구조화 된 데이터에서 배치 기반 작업에 사용됩니다. 가장 짧은 작업조차도 수분의 순서로 배치됩니다. 어떤 종류의 성능 문제가 있습니까? 데이터 변환 또는보고를 기반으로합니다. 이 아키텍처가 도움이되거나 상황을 악화시킬 수 있다는 점에 따라.
==============================
4.Joe가 언급했듯이 Sqoop은 MySQl과 같은 SQL 데이터베이스에서 데이터를 가져오고 내보내는 Hadoop 에코 시스템의 훌륭한 도구입니다.

Joe가 언급했듯이 Sqoop은 MySQl과 같은 SQL 데이터베이스에서 데이터를 가져오고 내보내는 Hadoop 에코 시스템의 훌륭한 도구입니다.

예를 들어 MySQL을 포함하여 더 복잡한 통합이 필요한 경우 필터링 또는 tranformation이면이 문제점에 대해 통합 프레임 워크 또는 통합 스위트를 사용해야합니다. Hadoop과 오픈 소스 통합 프레임 워크 및 통합 제품군을 사용하는 방법에 대한 자세한 정보는 "Hadoop을 넘어서는 빅 데이터 - 모든 데이터 통합 방법"이라는 프리젠 테이션을 참조하십시오.
==============================
5.나는 Sai에 동의한다. 필요한 경우에만 Hadoop을 MySql과 함께 사용하고 있습니다. 테이블을 CSV로 내보내고 HDFS로 업로드하여 데이터를 더 빨리 처리합니다. 처리 된 데이터를 유지하려면 삽입 성능을 향상시키기 위해 일종의 batchinserts를 수행 할 단일 감속기 작업을 작성해야합니다. 그러나 그것은 정말로 당신이하고 싶은 일의 종류에 달려 있습니다.

나는 Sai에 동의한다. 필요한 경우에만 Hadoop을 MySql과 함께 사용하고 있습니다. 테이블을 CSV로 내보내고 HDFS로 업로드하여 데이터를 더 빨리 처리합니다. 처리 된 데이터를 유지하려면 삽입 성능을 향상시키기 위해 일종의 batchinserts를 수행 할 단일 감속기 작업을 작성해야합니다. 그러나 그것은 정말로 당신이하고 싶은 일의 종류에 달려 있습니다.

from https://stackoverflow.com/questions/4800994/hadoop-and-mysql-integration by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] thread "main"의 예외 java.lang.NoClassDefFoundError : com / google / common / base / 전제 조건 (0)	2019.08.02
[HADOOP] Hadoop 2.2.0의 HDFS 구성 파일은 어디에 있습니까? (0)	2019.08.02
[HADOOP] Mapper and Reducer 클래스에서 변수를 공유하는 방법은 무엇입니까? (0)	2019.08.02
[HADOOP] Hadoop 구성 속성이 Null을 반환합니다. (0)	2019.08.02
[HADOOP] 이클립스에서 Hadoop을 사용할 때 libprotoc가 오래 되었기 때문에 트렁크가 컴파일되지 않는다. (0)	2019.08.02

복붙노트

[HADOOP] Hadoop과 MySQL 통합

Hadoop과 MySQL 통합

해결법

2.Sqoop은 관계형 데이터베이스에서 Hadoop으로 데이터를 가져 오기 위해 설계된 도구입니다.

4.Joe가 언급했듯이 Sqoop은 MySQl과 같은 SQL 데이터베이스에서 데이터를 가져오고 내보내는 Hadoop 에코 시스템의 훌륭한 도구입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바