복붙노트

[HADOOP] aws를 사용하여 하이브 활동 자동화하기

HADOOP

aws를 사용하여 하이브 활동 자동화하기

데이터 파이프 라인 인 옵션을 사용하기 위해 매일 하이브 스크립트를 자동화하고 싶습니다. 하지만 문제는 내가 dynamo-db에서 s3으로 데이터를 내보내고 하이브 스크립트로이 데이터를 조작하고 있다는 것입니다. 하이브 - 활동에 입출력이 있어야하기 때문에 문제가 시작되는 하이브 - 스크립트에서이 입력 및 출력을 제공하고 있지만 스크립트 파일에 입력해야합니다.

이 하이브 스크립트를 자동화하고 몇 가지 아이디어를 기다리는 방법을 찾으려고합니다.

건배,

해결법

  1. ==============================

    1.임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.

    임의의 하이브 스크립트를 실행하기 위해 하이브 활동에서 준비를 비활성화 할 수 있습니다.

    stage = false
    

    다음과 같이하십시오.

    {
      "name": "DefaultActivity1",
      "id": "ActivityId_1",
      "type": "HiveActivity",
      "stage": "false",
      "scriptUri": "s3://baucket/query.hql",
      "scriptVariable": [
        "param1=value1",
        "param2=value2"
      ],
      "schedule": {
        "ref": "ScheduleId_l"
      },
      "runsOn": {
        "ref": "EmrClusterId_1"
      }
    },
    
  2. ==============================

    2.하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.

    하이브 활동의 또 다른 대안은 다음 예제와 같이 EMR 활동을 사용하는 것입니다.

    {
          "schedule": {
            "ref": "DefaultSchedule"
          },
          "name": "EMR Activity name",
          "step": "command-runner.jar,hive-script,--run-hive-script,--args,-f,s3://bucket/path/query.hql",
          "runsOn": {
            "ref": "EmrClusterId"
          },
          "id": "EmrActivityId",
          "type": "EmrActivity"
        }
    
  3. from https://stackoverflow.com/questions/19709651/automating-hive-activity-using-aws by cc-by-sa and MIT license