aws를 사용하여 하이브 활동 자동화하기

데이터 파이프 라인 인 옵션을 사용하기 위해 매일 하이브 스크립트를 자동화하고 싶습니다. 하지만 문제는 내가 dynamo-db에서 s3으로 데이터를 내보내고 하이브 스크립트로이 데이터를 조작하고 있다는 것입니다. 하이브 - 활동에 입출력이 있어야하기 때문에 문제가 시작되는 하이브 - 스크립트에서이 입력 및 출력을 제공하고 있지만 스크립트 파일에 입력해야합니다.

이 하이브 스크립트를 자동화하고 몇 가지 아이디어를 기다리는 방법을 찾으려고합니다.

건배,

해결법

==============================

1.임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.

임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.

stage = false

다음과 같이하십시오.

{
  "name": "DefaultActivity1",
  "id": "ActivityId_1",
  "type": "HiveActivity",
  "stage": "false",
  "scriptUri": "s3://baucket/query.hql",
  "scriptVariable": [
    "param1=value1",
    "param2=value2"
  ],
  "schedule": {
    "ref": "ScheduleId_l"
  },
  "runsOn": {
    "ref": "EmrClusterId_1"
  }
},

==============================

2.하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.

하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.

{
      "schedule": {
        "ref": "DefaultSchedule"
      },
      "name": "EMR Activity name",
      "step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql",
      "runsOn": {
        "ref": "EmrClusterId"
      },
      "id": "EmrActivityId",
      "type": "EmrActivity"
    }

from https://stackoverflow.com/questions/19709651/automating-hive-activity-using-aws by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 지도 파일을 MapReduce 작업의 입력으로 사용 (0)	2019.07.30
[HADOOP] 천천히 변화하는 차원 - 하이브의 SCD1 및 SCD2 구현 (0)	2019.07.30
[HADOOP] SparkR 작업 100 분 시간 초과 (0)	2019.07.30
[HADOOP] HBase 쓰기 : 성능, 배치 또는 put (List <Put>) 중 어떤 것이 더 낫습니까? (0)	2019.07.30
[HADOOP] 스파크 하이브 : 누락 된 <spark-assembly * .jar> (0)	2019.07.30

복붙노트

[HADOOP] aws를 사용하여 하이브 활동 자동화하기

aws를 사용하여 하이브 활동 자동화하기

해결법

1.임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.

2.하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바