복붙노트

[HADOOP] 하이브 작업 이름을 제어하지만 스테이지 정보를 유지하려면 어떻게해야합니까?

HADOOP

하이브 작업 이름을 제어하지만 스테이지 정보를 유지하려면 어떻게해야합니까?

내 시스템이 정기적으로 실행하는 수많은 하이브 쿼리가 있습니다. 취업 트래 커를 보면 "SELECT field, other_field ..... (Stage-1)"와 비슷한 것으로 나타납니다. 특히 나에게 도움이되지는 않는다. 그래서 나는 덧붙였다. set mapred.job.name =보다 도움이되는 이름; 쿼리에. 이제는 더 잘 말해 줄 수 있습니다. 그러나 이제는 여러 단계로 나뉘는 쿼리가 모두 같은 이름으로 표시됩니다. 내가 이상적으로 생각하는 것은 set의 라인을 따라서 뭔가있는 것입니다. mapred.job.name = 더 유용한 이름 (스테이지 - % d); 여기서 % d은 현재 스테이지 번호로 대체됩니다. 이게 가능하고, 어떻게 알 수 있습니까?

해결법

  1. ==============================

    1.원하는 것을 정확히 구현할 수있는 방법이 있는지 확신 할 수 없지만 다른 것을 제공 할 수 있습니다. set mapred.job.name을 사용하는 대신 다음과 같이 더 유용한 이름을 사용하여 쿼리 시작 부분에 주석을 추가 할 수 있습니다. - 더 유용한 이름입니다. SELECT 필드, other_field ....

    원하는 것을 정확히 구현할 수있는 방법이 있는지 확신 할 수 없지만 다른 것을 제공 할 수 있습니다. set mapred.job.name을 사용하는 대신 다음과 같이 더 유용한 이름을 사용하여 쿼리 시작 부분에 주석을 추가 할 수 있습니다. - 더 유용한 이름입니다. SELECT 필드, other_field ....

    jobtracker에서 보게 될 것입니다 - 이것은 더 유용한 이름입니다 ..... (스테이지 - % d) "

  2. ==============================

    2.이 사이트를 찾았습니다. https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration

    이 사이트를 찾았습니다. https://cwiki.apache.org/confluence/display/Hive/AdminManual+Configuration

    거기에 불리는 속성이 있습니다 : hive.query.string

    그래서 hive.query.string = 더 유용한 이름이 설정되어야합니다.

    그것은 나를 위해 완벽하게 작동합니다.

  3. ==============================

    3.나는 이것이 매우 늦은 답변이지만, 어쨌든 이것이 나를 도와 주면 도움이된다고 알고 있습니다.

    나는 이것이 매우 늦은 답변이지만, 어쨌든 이것이 나를 도와 주면 도움이된다고 알고 있습니다.

    이것은 HIVE가 런타임에 특정 매개 변수를 설정할 수 없기 때문에 발생합니다. 그래도 설정하려면 다음 단계를 따르십시오.

    이 런타임 오류가 발생하는이 구성의 모든 키 - 값 쌍을 사용할 수 있습니다.

  4. from https://stackoverflow.com/questions/19036371/how-do-i-control-a-hive-job-name-but-keep-the-stage-info by cc-by-sa and MIT license