복붙노트

[HADOOP] 맵리 듀스 작업은 JSON의 HDFS 디렉토리에있는 모든 고유 필드를 수집합니다

HADOOP

맵리 듀스 작업은 JSON의 HDFS 디렉토리에있는 모든 고유 필드를 수집합니다

내 질문은 본질적으로이 참조 질문의 응용 프로그램입니다 :

나무 마루에 JSON 변환

나는 반 수동으로 HDFS 디렉토리에 (알려진 자원의 임의의 조합으로 구성) JSON 파일에 포함 된 필드의 상위 집합에 대한 브로 스키마를 보좌 신부해야하는 다소 독특한 위치에 자신을 찾을 수 있습니다.

이것은 내가 스파크 훨씬 더 효율적인 / 쉽게 처리를 위해 마루에이 파일을 변환하는 개발하기 위해 노력하고 ETL 파이프 라인의 일부입니다. 나는 전에 맵리 듀스 프로그램을 작성한 적이없는, 그래서 나는 처음부터 시작하고있다. 사람이 이전에 이러한 유형의 문제가 발생할 경우, 나는 어떤 통찰력을 부탁드립니다. 감사!

해결법

    from https://stackoverflow.com/questions/35495041/mapreduce-job-to-collect-all-unique-fields-in-hdfs-directory-of-json by cc-by-sa and MIT license