[HADOOP] 너무 많은 작은 파일 HDFS 싱크 수로
HADOOP너무 많은 작은 파일 HDFS 싱크 수로
agent.sinks=hpd
agent.sinks.hpd.type=hdfs
agent.sinks.hpd.channel=memoryChannel
agent.sinks.hpd.hdfs.path=hdfs://master:9000/user/hduser/gde
agent.sinks.hpd.hdfs.fileType=DataStream
agent.sinks.hpd.hdfs.writeFormat=Text
agent.sinks.hpd.hdfs.rollSize=0
agent.sinks.hpd.hdfs.batchSize=1000
agent.sinks.hpd.hdfs.fileSuffix=.i
agent.sinks.hpd.hdfs.rollCount=1000
agent.sinks.hpd.hdfs.rollInterval=0
나는 HDFS에 이벤트를 쓸 HDFS 싱크를 사용하는 것을 시도하고있다. 그리고 크기를 시도, 횟수 및 시간 기반 압연 그러나 예상대로 아무도가 작동하지 않습니다. 그것은 HDFS에 너무 많은 작은 파일을 생성하고 싶은 :
-rw-r--r-- 2 hduser supergroup 11617 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832879.i
-rw-r--r-- 2 hduser supergroup 1381 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832880.i
-rw-r--r-- 2 hduser supergroup 553 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832881.i
-rw-r--r-- 2 hduser supergroup 2212 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832882.i
-rw-r--r-- 2 hduser supergroup 1379 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832883.i
-rw-r--r-- 2 hduser supergroup 2762 2016-03-05 19:37 hdfs://master:9000/user/hduser/gde/FlumeData.1457186832884.i.tmp
주어진 문제를 해결하는 데 도움을 주시기 바랍니다. 나는 수로 1.6.0를 사용하고 있습니다
~ 감사합니다
해결법
-
==============================
1.이제 모든 1,000 항목에 대한 파일을 압연된다. 당신은 아래에 언급 된 두 가지 방법 중 하나를 시도 할 수 있습니다.
이제 모든 1,000 항목에 대한 파일을 압연된다. 당신은 아래에 언급 된 두 가지 방법 중 하나를 시도 할 수 있습니다.
자세한 내용은 수로 문서를 참조하십시오
-
==============================
2.내 제공되는 구성은 모두 정확했다. 그런 행동 뒤에 이유는 HDFS했다. 나는 하나가 다운 된 밖으로있는 2 개 데이터 노드를 가지고 있었다. 그래서, 파일은 최소 요구 복제를 달성되지 않았다. 수로 로그에 하나가 너무 경고 메시지 아래에서 볼 수 있습니다 :
내 제공되는 구성은 모두 정확했다. 그런 행동 뒤에 이유는 HDFS했다. 나는 하나가 다운 된 밖으로있는 2 개 데이터 노드를 가지고 있었다. 그래서, 파일은 최소 요구 복제를 달성되지 않았다. 수로 로그에 하나가 너무 경고 메시지 아래에서 볼 수 있습니다 :
하나는 아래 솔루션의 선택할 수있는이 문제를 제거하려면 : -
~ 감사합니다
from https://stackoverflow.com/questions/35815163/too-many-small-files-hdfs-sink-flume by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 반면에 withColumn 스파크 Dataframe의 스칼라를 사용하는 방법 (0) | 2019.10.07 |
---|---|
[HADOOP] 데이터 노드와 노드 관리자는 의사 클러스터 모드로 시작되지 않는 (아파치 하둡) (0) | 2019.10.07 |
[HADOOP] HBase를 회복 (0) | 2019.10.07 |
[HADOOP] 분산 캐시를 통해 매퍼에서 파일을 액세스 (0) | 2019.10.06 |
[HADOOP] 카프카는 연결 - HDFS와 ExtractTopic 변환 싱크 커넥터가 NullPointerException이 발생합니다 (0) | 2019.10.06 |