복붙노트

[HADOOP] Hive에서 아이슬란드 어 가시 문자를 구분 기호로 사용

HADOOP

Hive에서 아이슬란드 어 가시 문자를 구분 기호로 사용

현재 일부 DoubleClick 광고 로그를 Hadoop으로 가져 오려고합니다.

이 로그는 1252 페이지 (Windows-ANSI?)를 사용하여 인코딩하고 아이슬란드 어 가시 문자를 구분 기호로 사용하는 gzip 구분 파일에 저장됩니다.

이 로그를 행복하게 단일 열로 가져올 수는 있지만 Hive가 Thorn 문자를 이해할 수있는 방법을 찾지 못하는 것 같습니다. 아마도 1252 인코딩을 이해하지 못했기 때문일까요?

테이블 생성 설명서 (http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html)를 살펴 봤지만이 인코딩을 얻는 방법을 찾지 못하는 것 같습니다. 구분자 작업.

또한 https://karmasphere.com/karmasphere-analyst-faq에서 이러한 파일의 인코딩이 ISO-8859-1이라는 제안을 보았지만 Hive 또는 HDFS에서 해당 정보를 사용하는 방법을 보지 못했습니다.

가져 오기 후에 이러한 행을 여러 레코드로 분할하기 위해 맵 작업을 수행 할 수 있다는 것을 알고 있습니다.

그러나이 구분 기호를 직접 사용하는 더 쉬운 방법이 있습니까?

감사

스튜어트

해결법

  1. ==============================

    1.'\ -2'사용 문자는 부호있는 바이트입니다.

    '\ -2'사용 문자는 부호있는 바이트입니다.

    분명히 하이브 개발자는 그것이 문제라고 생각하지 않습니다. https://issues.apache.org/jira/browse/HIVE-237

  2. from https://stackoverflow.com/questions/12833866/using-the-icelandic-thorn-character-as-a-delimiter-in-hive by cc-by-sa and MIT license