[HADOOP] 맵리 듀스 작업은 JSON의 HDFS 디렉토리에있는 모든 고유 필드를 수집합니다
HADOOP맵리 듀스 작업은 JSON의 HDFS 디렉토리에있는 모든 고유 필드를 수집합니다
내 질문은 본질적으로이 참조 질문의 응용 프로그램입니다 :
나무 마루에 JSON 변환
나는 반 수동으로 HDFS 디렉토리에 (알려진 자원의 임의의 조합으로 구성) JSON 파일에 포함 된 필드의 상위 집합에 대한 브로 스키마를 보좌 신부해야하는 다소 독특한 위치에 자신을 찾을 수 있습니다.
이것은 내가 스파크 훨씬 더 효율적인 / 쉽게 처리를 위해 마루에이 파일을 변환하는 개발하기 위해 노력하고 ETL 파이프 라인의 일부입니다. 나는 전에 맵리 듀스 프로그램을 작성한 적이없는, 그래서 나는 처음부터 시작하고있다. 사람이 이전에 이러한 유형의 문제가 발생할 경우, 나는 어떤 통찰력을 부탁드립니다. 감사!
해결법
from https://stackoverflow.com/questions/35495041/mapreduce-job-to-collect-all-unique-fields-in-hdfs-directory-of-json by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 실 클러스터 모드에 실패 oozie 런처 (0) | 2019.09.29 |
---|---|
[HADOOP] 읽기 및 JAVA에서 HDFS에 쓸 수있는 기존의 API가 있습니까 (0) | 2019.09.29 |
[HADOOP] 오류 HDFS zkfc 명령을 실행 (0) | 2019.09.29 |
[HADOOP] 여러 서버에서 데이터를로드 할 때 데이터 중복 방지 (0) | 2019.09.28 |
[HADOOP] HDFS 및 절단 파일 (0) | 2019.09.28 |