복붙노트

[HADOOP] sqoop 가져 오기 또는 내보내기 중 잘못된 레코드 처리

HADOOP

sqoop 가져 오기 또는 내보내기 중 잘못된 레코드 처리

sqoop 내보내기 작업에서 제공하는 옵션을 보았지만 잘못된 레코드를 처리하는 옵션을 찾을 수 없습니다. 예를 들어, 한 번에 한 번 큰 레코드 집합에서 숫자가 예상되는 문자가있을 수 있습니다. 작업을 실패하고 파일에 잘못된 레코드를 제공하지 않고 sqoop에서 이러한 시나리오를 처리하는 방법이 있습니까?

해결법

  1. ==============================

    1.Sqoop은 현재 내보낼 데이터가 깨끗하고 손상된 데이터를 처리하는 기능을 제공하지 않을 것으로 예상합니다. Sqoop을 사용하여 내보내기 전에 MR / Pig / Hive 작업을 사용하여 데이터를 정리할 수 있습니다.

    Sqoop은 현재 내보낼 데이터가 깨끗하고 손상된 데이터를 처리하는 기능을 제공하지 않을 것으로 예상합니다. Sqoop을 사용하여 내보내기 전에 MR / Pig / Hive 작업을 사용하여 데이터를 정리할 수 있습니다.

  2. from https://stackoverflow.com/questions/18446911/handling-bad-records-during-sqoop-import-or-export by cc-by-sa and MIT license