복붙노트

[HADOOP] 하이브에 여러 xls 파일에서 xls 데이터를로드하는 방법?

HADOOP

하이브에 여러 xls 파일에서 xls 데이터를로드하는 방법?

Big Data 관련 작업을 수행하기 위해 Hadoop을 사용하는 방법을 배우고 있습니다.

필자는 8 개의 xls 파일로 분할 된 데이터 집합 컬렉션에 대해 몇 가지 쿼리를 수행해야합니다. 각 xls 파일에는 여러 개의 시트가 있으며 쿼리는 시트 중 하나에 만 관련됩니다.

데이터 세트는 여기에서 다운로드 할 수 있습니다. http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html

나는 업무용으로 hadoop의 상업적 배포판을 사용하지 않고 단지 하나의 마스터와 슬레이브 VM을 VmWare에서 Hadoop, Hive, Pig로 설정했다.

저는 Hadoop 및 Big Data를 사용하는 초보자입니다. 앞으로 진행하는 방법을 안내해 줄 수있는 사람이 있다면 매우 감사 할 것입니다.

검색어에 대한 정보가 필요하면 알려주세요.

감사.

해결법

  1. ==============================

    1.하이브에서는 txt 나 csv 파일처럼 테이블에서 직접 xls에서 데이터를로드 할 수 없습니다.

    하이브에서는 txt 나 csv 파일처럼 테이블에서 직접 xls에서 데이터를로드 할 수 없습니다.

    두 가지 옵션이 있습니다.

    또는

    두 가지 모두 장단점이 있지만 HIVE와 상호 작용하는 응용 프로그램을로드, 쿼리, 변형 등에 사용하려는 경우 옵션 1을 사용할 수 있습니다. 그러나 스크립트 / 배치 등을 통해 수행하려는 경우 옵션을 사용할 수 있습니다 2.

  2. from https://stackoverflow.com/questions/29429679/how-to-load-xls-data-from-multiple-xls-file-into-hive by cc-by-sa and MIT license