하이브에 XML 파일을로드하는 방법

임, 하이브 테이블에 다음과 같은 문제가 발생했습니다. HDFS에 10 억 개 이상의 XML 파일이 있습니다. 내가 뭘하고 싶은지, 각 XML 파일은 4 가지 섹션을 가지고 있습니다. 이제 모든 XML 파일에 대해 각 테이블의 각 부분을 분할하여로드하려고합니다.

예 :

            <?xml version='1.0' encoding='iso-8859-1'?>

            <section1>
                <id> 1233222 </id>
               // having lot of xml tages 
            </section1>

            <section2>
               // having lot of xml tages 
            </section2>

            <section3>
               // having lot of xml tages 
            </section3>

            <section4>
               // having lot of xml tages 
            </section4>

            </xml>

그리고 나는 네 개의 테이블을 가지고있다.

        section1Table

        id       section1    // fields 

        section2Table

        id       section2

        section3Table 

        id       section3

        section4Table

        id       section4

이제 각 테이블에 데이터를 분할하여로드하려고합니다.

어떻게하면 이럴 수 있겠 어. 아무도 나를 도울 수 있습니까?

감사

최신 정보

나는 다음을 시도했다.

CREATE EXTERNAL TABLE test(name STRING) LOCATION '/user/sornalingam/zipped/output/Tagged/t1';\


SELECT xpath (name, '//section1') FROM test LIMIT 1 ;

하지만 다음 오류가 발생했습니다.

java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"name":"<?xml version='1.0' encoding='iso-8859-1'?>"}

해결법

==============================
1.몇 가지 옵션이 있습니다.

몇 가지 옵션이 있습니다.

이러한 접근 방식에 따라 귀하의 경험과 편안함의 수준에 달려 있습니다.

==============================

2.이것을 사용하십시오 :

이것을 사용하십시오 :

CREATE EXTERNAL TABLE test(name STRING) LOCATION '/user/sornalingam/zipped/output/Tagged/t1'

tblproperties ("skip.header.line.count"="1", "skip.footer.line.count"="1");

그리고 xpath 함수를 사용하십시오.

==============================
3.복잡한 XML을 Hive로 변환하는 전체 프로세스를 자동화 할 수 있습니다 (예 : Flexter XML 변환기는 Hive가 쿼리 할 수있는 마루 또는 Avro 파일을 생성 할 수 있습니다.

복잡한 XML을 Hive로 변환하는 전체 프로세스를 자동화 할 수 있습니다 (예 : Flexter XML 변환기는 Hive가 쿼리 할 수있는 마루 또는 Avro 파일을 생성 할 수 있습니다.

다음은 MISMO XML을 하이브 및 마루로 변환하는 것을 자동화하는 방법을 보여주는 블로그 게시물입니다

면책 조항 : 나는 Sonra를 위해 일한다.

from https://stackoverflow.com/questions/20852166/how-to-load-xml-file-into-hive by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 리플렉션을 사용하여 pojo의 마루 파일에 쓰기 (0)	2019.06.21
[HADOOP] Hadoop Map의 데이터 공유 (0)	2019.06.21
[HADOOP] Hadoop에서 사용자 정의 쓰기 가능 구현? (0)	2019.06.21
[HADOOP] EMR의 사용자 지정 환경 변수를 스파크 응용 프로그램에 사용할 수 있도록 설정하는 방법 (0)	2019.06.21
[HADOOP] hadoop 단어 계산 예제를 실행할 수 없습니까? (0)	2019.06.21

복붙노트 개발을 배울 때 처음부터 이해하고 코드를 쓰는 것은 무척 어렵습니다. 우선 Copy & Paste ( 복사 붙여넣기. : 복붙) 해 보시고, 어떻게 작동하는지 확인하세요. 가장 실력이 빠르게 느는 방법은 "직접 해보는 것" 입니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] 하이브에 XML 파일을로드하는 방법

하이브에 XML 파일을로드하는 방법

해결법

1.몇 가지 옵션이 있습니다.

2.이것을 사용하십시오 :

3.복잡한 XML을 Hive로 변환하는 전체 프로세스를 자동화 할 수 있습니다 (예 : Flexter XML 변환기는 Hive가 쿼리 할 수있는 마루 또는 Avro 파일을 생성 할 수 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역