복붙노트

[HADOOP] 스파크 스트리밍은 "cp"와 "mv"로 작동합니다.

HADOOP

스파크 스트리밍은 "cp"와 "mv"로 작동합니다.

스파크 스트리밍을 사용하고 있습니다.

내 프로그램은 지속적으로 hadoop 폴더에서 스트림을 읽습니다. 문제는 내가 hadoop 폴더 (hadoop fs -copyFromLocal)에 복사하면 스파크 작업이 시작되지만, (hadoop fs -mv / hadoopsourcePath / * / destinationPath /) 이동하면 작동하지 .

스파크 스트리밍의 한계점입니까?

스파크 스트리밍과 관련된 또 다른 질문이 있습니다. 스트리밍 특정 파일 선택 가능

해결법

  1. ==============================

    1.알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.

    알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.

    예를 들어

    임시 폴더 : 파일 f.txt (타임 스탬프 t1 : 파일을 만들 때)

    스파크 입력 폴더 : / 입력

    mv (hadoop fs -mv /temp/f.txt / input)를 할 때 : Spark가 선택하지 않습니다.

    그러나 이동 한 파일의 타임 스탬프를 변경하면 이동 후 스파크가 선택됩니다.

    https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala

    스파크의 소스 코드를 확인해야했습니다.

  2. from https://stackoverflow.com/questions/36350336/is-spark-streaming-works-with-both-cp-and-mv by cc-by-sa and MIT license