[HADOOP] 스파크 스트리밍은 "cp"와 "mv"로 작동합니다.
HADOOP스파크 스트리밍은 "cp"와 "mv"로 작동합니다.
스파크 스트리밍을 사용하고 있습니다.
내 프로그램은 지속적으로 hadoop 폴더에서 스트림을 읽습니다. 문제는 내가 hadoop 폴더 (hadoop fs -copyFromLocal)에 복사하면 스파크 작업이 시작되지만, (hadoop fs -mv / hadoopsourcePath / * / destinationPath /) 이동하면 작동하지 .
스파크 스트리밍의 한계점입니까?
스파크 스트리밍과 관련된 또 다른 질문이 있습니다. 스트리밍 특정 파일 선택 가능
해결법
-
==============================
1.알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.
알았어 ... 그것은 스파크 1.5에서 작동한다. 그러나 타임 스탬프가 현재 타임 스탬프와 같은 파일 만 선택합니다.
예를 들어
임시 폴더 : 파일 f.txt (타임 스탬프 t1 : 파일을 만들 때)
스파크 입력 폴더 : / 입력
mv (hadoop fs -mv /temp/f.txt / input)를 할 때 : Spark가 선택하지 않습니다.
그러나 이동 한 파일의 타임 스탬프를 변경하면 이동 후 스파크가 선택됩니다.
https://github.com/apache/spark/blob/master/streaming/src/main/scala/org/apache/spark/streaming/dstream/FileInputDStream.scala
스파크의 소스 코드를 확인해야했습니다.
from https://stackoverflow.com/questions/36350336/is-spark-streaming-works-with-both-cp-and-mv by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 스파크 데이터 세트 쓰기의 차이점 (0) | 2019.07.03 |
---|---|
[HADOOP] Hadoop wordcount 예제를 실행할 때 작업 토큰 파일을 찾을 수 없습니다. (0) | 2019.07.03 |
[HADOOP] 요청 된 주소를 할당 할 수 없습니다. (0) | 2019.07.03 |
[HADOOP] 하이브의 하위 디렉토리에서 파티션을 수행하는 방법 (0) | 2019.07.03 |
[HADOOP] Oozie 워크 플로 시작 문제 (0) | 2019.07.03 |