[HADOOP] aws를 사용하여 하이브 활동 자동화하기
HADOOPaws를 사용하여 하이브 활동 자동화하기
데이터 파이프 라인 인 옵션을 사용하기 위해 매일 하이브 스크립트를 자동화하고 싶습니다. 하지만 문제는 내가 dynamo-db에서 s3으로 데이터를 내보내고 하이브 스크립트로이 데이터를 조작하고 있다는 것입니다. 하이브 - 활동에 입출력이 있어야하기 때문에 문제가 시작되는 하이브 - 스크립트에서이 입력 및 출력을 제공하고 있지만 스크립트 파일에 입력해야합니다.
이 하이브 스크립트를 자동화하고 몇 가지 아이디어를 기다리는 방법을 찾으려고합니다.
건배,
해결법
-
==============================
1.임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.
임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.
stage = false
다음과 같이하십시오.
{ "name": "DefaultActivity1", "id": "ActivityId_1", "type": "HiveActivity", "stage": "false", "scriptUri": "s3://baucket/query.hql", "scriptVariable": [ "param1=value1", "param2=value2" ], "schedule": { "ref": "ScheduleId_l" }, "runsOn": { "ref": "EmrClusterId_1" } },
-
==============================
2.하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.
하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.
{ "schedule": { "ref": "DefaultSchedule" }, "name": "EMR Activity name", "step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql", "runsOn": { "ref": "EmrClusterId" }, "id": "EmrActivityId", "type": "EmrActivity" }
from https://stackoverflow.com/questions/19709651/automating-hive-activity-using-aws by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 지도 파일을 MapReduce 작업의 입력으로 사용 (0) | 2019.07.30 |
---|---|
[HADOOP] 천천히 변화하는 차원 - 하이브의 SCD1 및 SCD2 구현 (0) | 2019.07.30 |
[HADOOP] SparkR 작업 100 분 시간 초과 (0) | 2019.07.30 |
[HADOOP] HBase 쓰기 : 성능, 배치 또는 put (List <Put>) 중 어떤 것이 더 낫습니까? (0) | 2019.07.30 |
[HADOOP] 스파크 하이브 : 누락 된 <spark-assembly * .jar> (0) | 2019.07.30 |