복붙노트

[HADOOP] 병렬로 여러 클라이언트의 HDFS 파일에 추가 할 수 있습니까?

HADOOP

병렬로 여러 클라이언트의 HDFS 파일에 추가 할 수 있습니까?

기본적으로 전체 질문이 제목에 있습니다. 여러 대의 컴퓨터에서 동시에 HDFS에있는 파일에 추가 할 수 있는지 궁금합니다. 끊임없이 여러 프로세스에서 생성되는 이벤트 스트림을 저장하는 것과 같습니다. 명령은 중요하지 않습니다.

GFS가 이러한 추가 기능을 지원하지만 HDFS (정규 파일 추가 () 또는 SequenceFile)를 사용하여 일부 제한된 테스트를 시도하는 Google 기술 프레젠테이션 중 하나에서 청각을 느꼈습니다.

감사,

해결법

  1. ==============================

    1.나는 이것이 HDFS에서 가능하다고 생각하지 않는다. 레코드의 순서는 신경 쓰지 않지만 파일의 바이트 순서는주의해야합니다. 작가 A가 작가 B가 손상된 부분 기록을 작성하는 것을 원하지 않습니다. HDFS가 독자적으로 해결하는 것이 어려운 문제이므로 그렇지 않습니다.

    나는 이것이 HDFS에서 가능하다고 생각하지 않는다. 레코드의 순서는 신경 쓰지 않지만 파일의 바이트 순서는주의해야합니다. 작가 A가 작가 B가 손상된 부분 기록을 작성하는 것을 원하지 않습니다. HDFS가 독자적으로 해결하는 것이 어려운 문제이므로 그렇지 않습니다.

    작성자 당 파일을 만듭니다. 모든 파일을이 데이터를 읽어야하는 MapReduce 작업자에게 전달하십시오. 이는 HDFS와 Hadoop의 디자인에 훨씬 더 간단하고 적합합니다. 비 MapReduce 코드가이 데이터를 하나의 스트림으로 읽어야 할 경우 각 파일을 순차적으로 스트리밍하거나 매우 빠른 MapReduce 작업을 작성하여 파일을 통합하십시오.

  2. ==============================

    2.그냥 참고하시기 바랍니다. 공식 사이트 인 https://issues.apache.org/jira/browse/HDFS-7203에서 JIRA 항목을 담당하는 hadoop 2.6.x에서 완전히 지원 될 것입니다.

    그냥 참고하시기 바랍니다. 공식 사이트 인 https://issues.apache.org/jira/browse/HDFS-7203에서 JIRA 항목을 담당하는 hadoop 2.6.x에서 완전히 지원 될 것입니다.

  3. from https://stackoverflow.com/questions/6389594/is-it-possible-to-append-to-hdfs-file-from-multiple-clients-in-parallel by cc-by-sa and MIT license