[HADOOP] 하이브에 여러 xls 파일에서 xls 데이터를로드하는 방법?
HADOOP하이브에 여러 xls 파일에서 xls 데이터를로드하는 방법?
Big Data 관련 작업을 수행하기 위해 Hadoop을 사용하는 방법을 배우고 있습니다.
필자는 8 개의 xls 파일로 분할 된 데이터 집합 컬렉션에 대해 몇 가지 쿼리를 수행해야합니다. 각 xls 파일에는 여러 개의 시트가 있으며 쿼리는 시트 중 하나에 만 관련됩니다.
데이터 세트는 여기에서 다운로드 할 수 있습니다. http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html
나는 업무용으로 hadoop의 상업적 배포판을 사용하지 않고 단지 하나의 마스터와 슬레이브 VM을 VmWare에서 Hadoop, Hive, Pig로 설정했다.
저는 Hadoop 및 Big Data를 사용하는 초보자입니다. 앞으로 진행하는 방법을 안내해 줄 수있는 사람이 있다면 매우 감사 할 것입니다.
검색어에 대한 정보가 필요하면 알려주세요.
감사.
해결법
-
==============================
1.하이브에서는 txt 나 csv 파일처럼 테이블에서 직접 xls에서 데이터를로드 할 수 없습니다.
하이브에서는 txt 나 csv 파일처럼 테이블에서 직접 xls에서 데이터를로드 할 수 없습니다.
두 가지 옵션이 있습니다.
또는
두 가지 모두 장단점이 있지만 HIVE와 상호 작용하는 응용 프로그램을로드, 쿼리, 변형 등에 사용하려는 경우 옵션 1을 사용할 수 있습니다. 그러나 스크립트 / 배치 등을 통해 수행하려는 경우 옵션을 사용할 수 있습니다 2.
from https://stackoverflow.com/questions/29429679/how-to-load-xls-data-from-multiple-xls-file-into-hive by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop -libjars 및 ClassNotFoundException (0) | 2019.08.02 |
---|---|
[HADOOP] Cassandra CQL3 복합 키가 Hadoop 감속기로 작성되지 않았습니다. (0) | 2019.08.02 |
[HADOOP] MultipleOutputFormat 파일 하위 경로 제어 (0) | 2019.08.02 |
[HADOOP] HIVE에서 날짜를 빼는 방법 (0) | 2019.08.02 |
[HADOOP] Hadoop WordCount 예제 - Hadoop (Eclipse) 옵션 실행시 프롬프트가 나타나지 않습니다. 창에서 실행할 Hadoop 서버 선택 (0) | 2019.08.02 |