[HADOOP] 하둡 HDFS에 데이터 보존
HADOOP하둡 HDFS에 데이터 보존
우리는 HDFS에서 100TB 이상의 데이터를 하둡 클러스터가 있습니다. 나는 특정 하이브 테이블 13 주 이상 오래된 데이터를 삭제합니다.
어떤 도구가 있습니까 또는 방법 나는 이것을 달성 할 수 있습니까?
감사합니다
해결법
-
==============================
1.일정 기간 후 데이터가 오래된 삭제하려면, 당신은 몇 가지 옵션이 있습니다.
일정 기간 후 데이터가 오래된 삭제하려면, 당신은 몇 가지 옵션이 있습니다.
하이브 테이블이 날짜를 기준으로 분할되어있는 경우 첫째, 당신은 단순히 하이브 내에서 파티션을 삭제하고 자신의 기본 디렉토리를 제거 할 수 있습니다.
두 번째 옵션은 날짜 스탬프를 (있는 경우)를 사용하여 이전 데이터를 필터링, 새 테이블에 INSERT를 실행하는 것입니다. 당신은 데이터의 100TB이 있기 때문에이 가능성이 좋은 옵션이 아닙니다.
세 번째 옵션은 재귀 하이브 테이블의 데이터 디렉토리를 나열하는 것입니다. 하둡 FS -lsr / 경로 / / 하이브 / 테이블. 이 출력됩니다 파일과 생성 날짜 목록. 당신은이 출력을 날짜를 추출하고 유지하려는 기간에 대해 비교할 수 있습니다. 유지하려는 다음 파일이 오래된 경우에 하둡 FS -rm <파일>을 실행합니다.
--silent 말림 : 네 번째 옵션은 FSImage의 사본을 잡아하는 것 "에 http : // <활성 네임 노드> : 50070 / 된 GetImage 된 GetImage = 1 TxID 삽입 = 최신?"-o hdfs.image 다음 텍스트 파일 변환합니다. 하둡 OIV -i hdfs.image -o hdfs.txt. 텍스트 파일, 하둡 때 fs -ls이 ... 반환 것과 같은 HDFS의 텍스트 표현이 포함됩니다.
from https://stackoverflow.com/questions/31011078/data-retention-in-hadoop-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하둡 2.6.0 사용하여 Windows에 단어 수 하둡 예제를 실행 (0) | 2019.09.25 |
---|---|
[HADOOP] 오류 하둡 파티션을 사용하는 동안 (0) | 2019.09.25 |
[HADOOP] 선택할 수있는 하나 - 하둡 프로그램의 드라이버를 작성하기 위해 여러 가지 방법? (0) | 2019.09.25 |
[HADOOP] 아파치 Giraph 복잡한 값으로 정점 (0) | 2019.09.25 |
[HADOOP] 하둡 2.X에서 Nutch (0) | 2019.09.25 |