[HADOOP] sqoop 가져 오기 또는 내보내기 중 잘못된 레코드 처리
HADOOPsqoop 가져 오기 또는 내보내기 중 잘못된 레코드 처리
sqoop 내보내기 작업에서 제공하는 옵션을 보았지만 잘못된 레코드를 처리하는 옵션을 찾을 수 없습니다. 예를 들어, 한 번에 한 번 큰 레코드 집합에서 숫자가 예상되는 문자가있을 수 있습니다. 작업을 실패하고 파일에 잘못된 레코드를 제공하지 않고 sqoop에서 이러한 시나리오를 처리하는 방법이 있습니까?
해결법
-
==============================
1.Sqoop은 현재 내보낼 데이터가 깨끗하고 손상된 데이터를 처리하는 기능을 제공하지 않을 것으로 예상합니다. Sqoop을 사용하여 내보내기 전에 MR / Pig / Hive 작업을 사용하여 데이터를 정리할 수 있습니다.
Sqoop은 현재 내보낼 데이터가 깨끗하고 손상된 데이터를 처리하는 기능을 제공하지 않을 것으로 예상합니다. Sqoop을 사용하여 내보내기 전에 MR / Pig / Hive 작업을 사용하여 데이터를 정리할 수 있습니다.
from https://stackoverflow.com/questions/18446911/handling-bad-records-during-sqoop-import-or-export by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] RDD는 첫 번째 열 값만 갖습니다. Hbase, PySpark (0) | 2019.08.08 |
---|---|
[HADOOP] Spark Scala를 사용하여 HiveContext를 사용하여 Hive 테이블에 데이터 삽입 (0) | 2019.08.08 |
[HADOOP] 반복자와 함께 mapPartition을 사용하여 스파크 RDD 저장 (0) | 2019.08.08 |
[HADOOP] 디렉토리에 하위 디렉토리가 있습니까? (0) | 2019.08.08 |
[HADOOP] HDFS 쓰기 결과 "CreateSymbolicLink 오류 (1314) : 클라이언트가 필요한 권한을 가지고 있지 않습니다." (0) | 2019.08.08 |