복붙노트

[HADOOP] 하둡 HDFS에 데이터 보존

HADOOP

하둡 HDFS에 데이터 보존

우리는 HDFS에서 100TB 이상의 데이터를 하둡 클러스터가 있습니다. 나는 특정 하이브 테이블 13 주 이상 오래된 데이터를 삭제합니다.

어떤 도구가 있습니까 또는 방법 나는 이것을 달성 할 수 있습니까?

감사합니다

해결법

  1. ==============================

    1.일정 기간 후 데이터가 오래된 삭제하려면, 당신은 몇 가지 옵션이 있습니다.

    일정 기간 후 데이터가 오래된 삭제하려면, 당신은 몇 가지 옵션이 있습니다.

    하이브 테이블이 날짜를 기준으로 분할되어있는 경우 첫째, 당신은 단순히 하이브 내에서 파티션을 삭제하고 자신의 기본 디렉토리를 제거 할 수 있습니다.

    두 번째 옵션은 날짜 스탬프를 (있는 경우)를 사용하여 이전 데이터를 필터링, 새 테이블에 INSERT를 실행하는 것입니다. 당신은 데이터의 100TB이 있기 때문에이 가능성이 좋은 옵션이 아닙니다.

    세 번째 옵션은 재귀 하이브 테이블의 데이터 디렉토리를 나열하는 것입니다. 하둡 FS -lsr / 경로 / / 하이브 / 테이블. 이 출력됩니다 파일과 생성 날짜 목록. 당신은이 출력을 날짜를 추출하고 유지하려는 기간에 대해 비교할 수 있습니다. 유지하려는 다음 파일이 오래된 경우에 하둡 FS -rm <파일>을 실행합니다.

    --silent 말림 : 네 번째 옵션은 FSImage의 사본을 잡아하는 것 "에 http : // <활성 네임 노드> : 50070 / 된 GetImage 된 GetImage = 1 TxID 삽입 = 최신?"-o hdfs.image 다음 텍스트 파일 변환합니다. 하둡 OIV -i hdfs.image -o hdfs.txt. 텍스트 파일, 하둡 때 fs -ls이 ... 반환 것과 같은 HDFS의 텍스트 표현이 포함됩니다.

  2. from https://stackoverflow.com/questions/31011078/data-retention-in-hadoop-hdfs by cc-by-sa and MIT license