복붙노트

[HADOOP] 어떻게 마루 파일에서 스키마 / 열 이름을받을 수 있나요?

HADOOP

어떻게 마루 파일에서 스키마 / 열 이름을받을 수 있나요?

나는 파트 m-00000.gz.parquet로 HDFS에 저장된 파일을

나는 HDFS DFS -text DIR / 파트 m-00000.gz.parquet를 실행하려고했지만 그것은 압축, 그래서 나는 gunzip이 부분-m-00000.gz.parquet를 실행하지만 '아무튼 이후 파일의 압축을 해제하지 않습니다 t는 .parquet 확장을 인식하고 있습니다.

어떻게하면이 파일의 스키마 / 열 이름을받을 수 있나요?

해결법

  1. ==============================

    1.당신은 HDFS DFS -text 때문에하지 텍스트 파일을 사용하여 파일을 "열기"할 수 없습니다. 마루 파일은 텍스트 파일에 비해 매우 다른 디스크에 기록됩니다.

    당신은 HDFS DFS -text 때문에하지 텍스트 파일을 사용하여 파일을 "열기"할 수 없습니다. 마루 파일은 텍스트 파일에 비해 매우 다른 디스크에 기록됩니다.

    그리고 같은 문제를 들어, 마루 프로젝트는 당신이하려고하는 같은 작업을 수행 할 수 마루 - 도구를 제공합니다. 스키마 열기와 참조 데이터, 메타 데이터 등

    마루 - 도구 프로젝트 체크 아웃 (단순히 jar 파일을 넣어됩니다.) 마루 - 도구

    또한 지원하고 마루에 크게 기여 클라우 데라도 마루 - 도구의 사용에 대한 예제와 함께 멋진 페이지가 있습니다. 사용 사례에 대한 해당 페이지에서 예입니다

    parquet-tools schema part-m-00000.parquet
    

    클라우 데라 페이지를 체크 아웃. 임팔라, 하이브, 돼지, HBase를하고, 맵리 듀스와 마루 파일 형식을 사용하여

  2. ==============================

    2.당신의 마루 파일이 나 같은 HDFS 또는 S3에있는 경우, 다음과 같은 뭔가를 시도 할 수 있습니다 :

    당신의 마루 파일이 나 같은 HDFS 또는 S3에있는 경우, 다음과 같은 뭔가를 시도 할 수 있습니다 :

    HDFS

    parquet-tools schema hdfs://<YOUR_NAME_NODE_IP>:8020/<YOUR_FILE_PATH>/<YOUR_FILE>.parquet
    

    고사

    parquet-tools schema s3://<YOUR_BUCKET_PATH>/<YOUR_FILE>.parquet
    

    희망이 도움이.

  3. ==============================

    3.이 텍스트 파일이 아니므로, 당신은 그것에 "-text"을 할 수 없습니다. 당신은 마루-도구가 설치되어 있지 않은 경우에도 당신은 하이브 테이블에 그 파일을로드 할 경우, 하이브를 통해 쉽게 읽을 수 있습니다.

    이 텍스트 파일이 아니므로, 당신은 그것에 "-text"을 할 수 없습니다. 당신은 마루-도구가 설치되어 있지 않은 경우에도 당신은 하이브 테이블에 그 파일을로드 할 경우, 하이브를 통해 쉽게 읽을 수 있습니다.

  4. from https://stackoverflow.com/questions/33883640/how-do-i-get-schema-column-names-from-parquet-file by cc-by-sa and MIT license