복붙노트

[HADOOP] Oozie / Sqoop을에 ​​대한 질문

HADOOP

Oozie / Sqoop을에 ​​대한 질문

나는 몇 가지 질문이있다 :

1. Why is there MapReduce process in Sqoop to load data from HDFS to MySQL? 

EG

데이터 디렉토리에 HDFS에 있습니다 : / foo는 / 바

MySQL의 바 테이블에 데이터를로드하려면, 왜 맵리 듀스 과정이있다?

수출을 --connect JDBC를 Sqoop을한다 : mysql : // localhost를 / hduser --table foo는 -m 1 --export-DIR / foo는 / 바

위의 명령 입력 후 MapReduce의 프로세스가 실행된다.

2. How can I enable/disable key in MySQL using Sqoop/Oozie?

거대한 데이터를 MySQL로로드하기 때문에, 우리는 활성화 / 비활성화 사용해야합니다. 어떻게 그것을 달성합니까?

3. How to run multiple Oozie jobs in parallel? 

4. How to run Oozie jobs in Cron?

당신은 1 개 이상의 질문에 응답 할 수 있습니다.

감사합니다.

해결법

  1. ==============================

    1.나는 1하여 질문 하나를 통해 갈 수 있습니다. 코멘트에 더 질문을 자유롭게 나는 당신에게 불분명 한 것들에 자세히 설명합니다.

    나는 1하여 질문 하나를 통해 갈 수 있습니다. 코멘트에 더 질문을 자유롭게 나는 당신에게 불분명 한 것들에 자세히 설명합니다.

    1. 왜 Sqoop을이 MySQL로 HDFS 데이터를로드하기에 맵리 듀스 과정이있다?

    Sqoop을가 맵리 듀스 기반으로하기 때문이다. 당신이 파일을 HDFS에 저장하는 방법을 고려하는 경우, 그들은 작은 덩어리로 분할하고,이 덩어리는 클러스터 (덩어리의 일부가 동일한 노드에있을 수 있습니다)를 통해 저장됩니다. 그래서지도 작업을 병렬로 데이터의 모든 청크를 읽어와 MySQL에 쓰기 맵리 듀스 작업을하는 완벽한 의미가 있습니다.

    2. 어떻게 Sqoop을 / Oozie를 사용하여 MySQL은 / ​​비활성화 키를 활성화 할 수 있습니다?

    나는 이것에 대한 답을 모른다. 그러나 나는 당신의 질문이 조금 애매하다고 생각합니다. 좀 더 세부 사항을 추가하려고 & I 뭔가를 발견하면 내가 다시이 탈 드리겠습니다.

    3. 어떻게 병렬로 여러 Oozie 작업을 실행하려면?

    각 Oozie 작업은 workflow.xml과 job.properties에 의해 정의된다.

    4. 어떻게 크론에서 Oozie 작업을 실행하려면?

    당신이 Oozie 작업의 실행을 자동화 할 경우에, 나는 당신이 Oozie 코디네이터로 보면 좋습니다. oozie 코디네이터를 사용하면 모든 간격 후 (10 분, 1 시간, 등 일일)를 발동하는 워크 플로우를 예약 할 수 있습니다.

  2. from https://stackoverflow.com/questions/22920431/questions-about-oozie-sqoop by cc-by-sa and MIT license