복붙노트

[HADOOP] hadoop에서 hcatalog의 사용은 무엇입니까?

HADOOP

hadoop에서 hcatalog의 사용은 무엇입니까?

나는 hadoop에 익숙하지 않다. HCatalog는 Hadoop의 테이블 및 스토리지 관리 레이어라는 것을 알고있다. 그러나 그것이 작동하는 방법과 그것을 사용하는 방법. 간단한 예를 들어주세요.

해결법

  1. ==============================

    1.HCatalog는 Hive SerDe (serializer-deserializer)를 쓸 수있는 모든 형식의 파일 읽기 및 쓰기를 지원합니다. 기본적으로 HCatalog는 RCFile, CSV, JSON 및 SequenceFile 형식을 지원합니다. 사용자 정의 형식을 사용하려면 InputFormat, OutputFormat 및 SerDe를 제공해야합니다.

    HCatalog는 Hive SerDe (serializer-deserializer)를 쓸 수있는 모든 형식의 파일 읽기 및 쓰기를 지원합니다. 기본적으로 HCatalog는 RCFile, CSV, JSON 및 SequenceFile 형식을 지원합니다. 사용자 정의 형식을 사용하려면 InputFormat, OutputFormat 및 SerDe를 제공해야합니다.

    HCatalog는 Hive 메타 스토어 위에 구축되어 Hive DDL의 구성 요소를 통합합니다. HCatalog는 Pig 및 MapReduce에 대한 읽기 및 쓰기 인터페이스를 제공하며 Hive의 명령 줄 인터페이스를 사용하여 데이터 정의 및 메타 데이터 탐색 명령을 실행합니다.

    또한 "create table"및 "describe table"과 같은 Hive DDL (Data Definition Language) 작업에 대한 외부 도구 액세스를 허용하는 REST 인터페이스를 제공합니다.

    HCatalog는 데이터의 관계형 뷰를 제공합니다. 데이터는 테이블에 저장되며 이러한 테이블은 데이터베이스에 저장 될 수 있습니다. 테이블은 하나 이상의 키로 분할 될 수도 있습니다. 주어진 키 값 (또는 키 세트)에는 해당 값 (또는 값 세트)을 갖는 모든 행을 포함하는 하나의 파티션이 있습니다.

    편집 : 대부분의 텍스트는 https://cwiki.apache.org/confluence/display/Hive/HCatalog+UsingHCat에 있습니다.

  2. ==============================

    2.즉, HCatalog는 하이브 메타 데이터를 다른지도 제작 도구로 엽니 다. 모든지도 제작 도구는 HDFS 데이터에 대한 자체 개념을 가지고 있습니다 (예 : 돼지는 HDFS 데이터를 파일 세트로보고 하이브는 테이블로 봅니다). 테이블 기반 추상화 기능을 갖춘 HCatalog 지원 맵 생성 도구는 데이터가 저장되는 위치, 형식 및 저장 위치 (HBase 또는 HDFS)를 신경 쓸 필요가 없습니다.

    즉, HCatalog는 하이브 메타 데이터를 다른지도 제작 도구로 엽니 다. 모든지도 제작 도구는 HDFS 데이터에 대한 자체 개념을 가지고 있습니다 (예 : 돼지는 HDFS 데이터를 파일 세트로보고 하이브는 테이블로 봅니다). 테이블 기반 추상화 기능을 갖춘 HCatalog 지원 맵 생성 도구는 데이터가 저장되는 위치, 형식 및 저장 위치 (HBase 또는 HDFS)를 신경 쓸 필요가 없습니다.

    Hcatalog에 따라 webhcat을 구성하면 WebHcat이 RESTful 방식으로 작업을 제출할 수있는 기능을 갖게됩니다.

  3. ==============================

    3.HCATALOG를 어떻게 사용하는지에 대한 아주 기본적인 예가 있습니다.

    HCATALOG를 어떻게 사용하는지에 대한 아주 기본적인 예가 있습니다.

    하이브에 테이블이 있는데 테이블 이름은 HDFS 위치 중 하나에 저장되어있는 학생입니다.

    네투 90 말 리니 90 수태 98 성직자 56 라비 90 여호수아 8 장

    이제 데이터 변환을 위해이 테이블을 돼지에로드하려고한다고 가정합니다. 이 시나리오에서는 HCATALOG를 사용할 수 있습니다.

    Hive 메타 스토어에서 Pig로 테이블 정보를 사용하는 경우 pig를 호출 할 때 -useHCatalog 옵션을 추가하십시오.

    돼지 - 사용

    (HCAT_HOME 'HCAT_HOME = / usr / lib / hive-hcatalog /'를 내보낼 수 있습니다)

    이 테이블을 돼지에로드하는 중 : A = LOAD 'student'USING org.apache.hcatalog.pig.HCatLoader ();

    이제 돼지에게 테이블을로드했습니다. 스키마를 확인하려면 릴레이션에 대해 DESCRIBE를 수행하십시오.

    DESCRIBE A

    감사

  4. ==============================

    4.

    "HCatalog는 Hadoop 용 테이블 및 스토리지 관리 레이어입니다."하이브 테이블의 분산 스토리지 레이어에 대한 I / O 작업을 수행하여 MR, Spark 및 Pig와 같은 다른 프레임 워크에 대한 높은 수준의 추상화를 제공합니다.

    HCatalog는 3 가지 핵심 요소로 구성됩니다.

    HCatalog가 설치되고 성공적으로 실행되면 CLI에서 다음을 수행합니다.

    usage: hcat { -e "<query>" | -f "<filepath>" } 
       [ -g "<group>" ] [ -p "<perms>" ] 
       [ -D"<name> = <value>" ]
    
    -D <property = value>    use hadoop value for given property
    -e <exec>                hcat command given from command line
    -f <file>                hcat commands in file
    -g <group>               group for the db/table specified in CREATE statement
    -h,--help                Print help information
    -p <perms>               permissions for the db/table specified in CREATE statement
    

    예:

    ./hcat –e "SELECT * FROM employee;"
    
  5. ==============================

    5.Hcatalog는 Hadoop File 시스템의 메타 데이터 관리입니다. Hcatalog는 나머지 API를 사용하는 webhcat을 통해 액세스 할 수 있습니다. hcatalog에서 만든 테이블에 하이브와 돼지를 통해 액세스 할 수 있습니다.

    Hcatalog는 Hadoop File 시스템의 메타 데이터 관리입니다. Hcatalog는 나머지 API를 사용하는 webhcat을 통해 액세스 할 수 있습니다. hcatalog에서 만든 테이블에 하이브와 돼지를 통해 액세스 할 수 있습니다.

  6. from https://stackoverflow.com/questions/22533814/what-is-use-of-hcatalog-in-hadoop by cc-by-sa and MIT license