스파크 스트리밍은 "cp"와 "mv"로 작동합니다.

스파크 스트리밍을 사용하고 있습니다.

내 프로그램은 지속적으로 hadoop 폴더에서 스트림을 읽습니다. 문제는 내가 hadoop 폴더 (hadoop fs -copyFromLocal)에 복사하면 스파크 작업이 시작되지만, (hadoop fs -mv / hadoopsourcePath / * / destinationPath /) 이동하면 작동하지 .

스파크 스트리밍의 한계점입니까?

스파크 스트리밍과 관련된 또 다른 질문이 있습니다. 스트리밍 특정 파일 선택 가능

해결법

==============================
1.알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.

알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.

예를 들어

임시 폴더 : 파일 f.txt (타임 스탬프 t1 : 파일을 만들 때)

스파크 입력 폴더 : / 입력

mv (hadoop fs -mv /temp/f.txt / input)를 할 때 : Spark가 선택하지 않습니다.

그러나 이동 한 파일의 타임 스탬프를 변경하면 이동 후 스파크가 선택됩니다.

https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala

스파크의 소스 코드를 확인해야했습니다.

from https://stackoverflow.com/questions/36350336/is-spark-streaming-works-with-both-cp-and-mv by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 스파크 데이터 세트 쓰기의 차이점 (0)	2019.07.03
[HADOOP] Hadoop wordcount 예제를 실행할 때 작업 토큰 파일을 찾을 수 없습니다. (0)	2019.07.03
[HADOOP] 요청 된 주소를 할당 할 수 없습니다. (0)	2019.07.03
[HADOOP] 하이브의 하위 디렉토리에서 파티션을 수행하는 방법 (0)	2019.07.03
[HADOOP] Oozie 워크 플로 시작 문제 (0)	2019.07.03

복붙노트

[HADOOP] 스파크 스트리밍은 "cp"와 "mv"로 작동합니다.

스파크 스트리밍은 "cp"와 "mv"로 작동합니다.

해결법

1.알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바