[HADOOP] HDFS에서 파일을 삭제하는 방법은 무엇입니까?
HADOOPHDFS에서 파일을 삭제하는 방법은 무엇입니까?
방금 Hortonworks 샌드 박스 VM을 다운로드했습니다. 내부에 Hadoop 버전 2.7.1이 있습니다. 일부 파일을 추가하여
hadoop fs -put /hw1/* /hw1
...명령. 추가 된 파일을 삭제하고 나면
hadoop fs -rm /hw1/*
... 명령을 실행하고 휴지통을 청소 한 후
hadoop fs -expunge
...명령. 그러나 휴지통을 청소 한 후에도 DFS 남은 공간은 변경되지 않습니다. 심지어 데이터가 / hw1 / 및 recyle bin에서 실제로 삭제되었음을 알 수 있습니다. 나는 fs.trash.interval 매개 변수 = 1을가집니다.
실제로 모든 데이터는 /hadoop/hdfs/data/current/BP-2048114545-10.0.2.15-1445949559569/current/finalized/subdir0/subdir2 폴더에서 청크로 나뉘어져 있습니다. 예상 할 수 있기 때문에 이것은 정말로 놀랍습니다. 그들을 삭제할 수 있습니다.
그래서 내 질문에 그들이 정말로 삭제됩니다 방식으로 데이터를 삭제하려면 어떻게? 몇 가지 추가 및 삭제 후 나는 자유 공간을 다 써 버렸다.
해결법
-
==============================
1.당신의 문제는 HDFS의 기초 안에 있습니다. HDFS (및 다른 많은 파일 시스템)에서는 파일을 물리적으로 삭제하는 것이 가장 빠른 작업이 아닙니다. HDFS는 파일 시스템을 분산하고 일반적으로 삭제 된 파일의 다른 서버에 최소 3 개의 복제본을 복제하므로 파일을 삭제하라는 요청을받은 후에 각 복제본 (다른 하드 드라이브의 많은 블록으로 구성 될 수 있음)을 백그라운드에서 삭제해야합니다.
당신의 문제는 HDFS의 기초 안에 있습니다. HDFS (및 다른 많은 파일 시스템)에서는 파일을 물리적으로 삭제하는 것이 가장 빠른 작업이 아닙니다. HDFS는 파일 시스템을 분산하고 일반적으로 삭제 된 파일의 다른 서버에 최소 3 개의 복제본을 복제하므로 파일을 삭제하라는 요청을받은 후에 각 복제본 (다른 하드 드라이브의 많은 블록으로 구성 될 수 있음)을 백그라운드에서 삭제해야합니다.
Hadoop의 공식 문서는 다음과 같이 알려줍니다.
-
==============================
2.시도 hadoop fs -rm -R URI
시도 hadoop fs -rm -R URI
-R 옵션은 디렉토리와 그 밑에있는 모든 내용을 재귀 적으로 삭제합니다.
-
==============================
3.나를 위해 일하는 것 :
나를 위해 일하는 것 :
hadoop fs -rmr -R <your Directory>
-
==============================
4.Durga Viswanath Gadiraju가 맞습니다. 시간 문제입니다. 어쩌면 PC가 느리고 VM을 사용합니다. 10 분 후에 파일이 물리적으로 삭제 된 것입니다. 질문에 사용 된 algorythm을 사용하고 있다면. fs.trash.interval 매개 변수 = 1을 설정합니다. 또는 기본적으로 파일은 6 시간 이상 빨리 지워지지 않습니다.
Durga Viswanath Gadiraju가 맞습니다. 시간 문제입니다. 어쩌면 PC가 느리고 VM을 사용합니다. 10 분 후에 파일이 물리적으로 삭제 된 것입니다. 질문에 사용 된 algorythm을 사용하고 있다면. fs.trash.interval 매개 변수 = 1을 설정합니다. 또는 기본적으로 파일은 6 시간 이상 빨리 지워지지 않습니다.
-
==============================
5.당신이 사용할 수있는
당신이 사용할 수있는
hdfs dfs -rm -R /path/to/HDFS/file
hadoop dfs가 더 이상 사용되지 않기 때문에.
from https://stackoverflow.com/questions/34140344/how-to-delete-files-from-the-hdfs by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하이브는 듀얼과 비슷한 것을 가지고 있습니까? (0) | 2019.08.03 |
---|---|
[HADOOP] hdfs - ls : 로컬 예외에 실패했습니다 : com.google.protobuf.InvalidProtocolBufferException : (0) | 2019.08.03 |
[HADOOP] 새로운 사용자 SSH hadoop (0) | 2019.08.03 |
[HADOOP] Hadoop MapReduce 오류 - / bin / bash : / bin / java :는 디렉토리입니다. (0) | 2019.08.03 |
[HADOOP] ClassNotFoundException : 스파이크가있는 org.apache.spark.SparkConf (0) | 2019.08.03 |