[HADOOP] Python UDF에서 외부 파일에 액세스
HADOOPPython UDF에서 외부 파일에 액세스
나는 하이브와 파이썬 UDF를 사용하고 있습니다. python udf를 추가 한 sql 파일을 정의하고 호출했습니다. 지금까지는 좋았으며 파이썬 함수를 사용하여 쿼리 결과를 처리 할 수 있습니다. 그러나이 시점에서 파이썬 udf에서 외부 .txt 파일을 사용해야합니다. 해당 파일을 클러스터 (.sql 및 .py 파일과 동일한 디렉토리)에 업로드하고이 명령을 사용하여 .sql 파일에도 추가했습니다.
ADD FILE /home/ra/stopWords.txt;
파이썬 udf 에서이 파일을 다음과 같이 호출하면 :
file = open("/home/ra/stopWords.txt", "r")
몇 가지 오류가 있습니다. 중첩 파일을 추가하고 하이브에서 사용하는 방법을 알 수 없습니다.
어떤 생각?
해결법
-
==============================
1.추가 된 모든 파일은 UDF 스크립트의 현재 작업 디렉토리 (./)에 있습니다.
추가 된 모든 파일은 UDF 스크립트의 현재 작업 디렉토리 (./)에 있습니다.
ADD FILE /dir1/dir2/dir3/myfile.txt를 사용하여 단일 파일을 추가하면 경로는 다음과 같습니다.
./myfile.txt
ADD FILE / dir1 / dir2를 사용하여 디렉토리를 추가하면 파일의 경로는
./dir2/dir3/myfile.txt
from https://stackoverflow.com/questions/45112390/accessing-external-file-in-python-udf by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 오류 org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode : doCheckpoint의 예외 (0) | 2019.08.07 |
---|---|
[HADOOP] Hive에서 여러 열의 열을 하나로 결합 (0) | 2019.08.07 |
[HADOOP] 로컬 호스트에서만 액세스 할 수있는 하둡 작업 추적기 (0) | 2019.08.07 |
[HADOOP] JA017 : 조회 할 수 없음 hadoop 작업 ID (0) | 2019.08.07 |
[HADOOP] 결합기 입력 수가 맵의 출력 수보다 많은 이유는 무엇입니까? (0) | 2019.08.07 |