복붙노트

[HADOOP] 효과적으로 큰 마루 파일을 병합

HADOOP

효과적으로 큰 마루 파일을 병합

나는 마루 파일을 병합 마루-도구를 사용하고 있습니다. 그러나 마루 - 도구 병합 된 파일과 같은 큰 메모리의 양을 필요로하는 것 같다. 우리가보다 효율적으로 메모리를 사용하는 마루 - 도구에서 다른 방법이나 구성 가능한 옵션이 있습니까? 나는 하둡 ENV에지도 작업으로의 병합 작업을 실행 원인. 그리고 용기는 그것이 제공되는 것보다 더 많은 메모리를 사용하는 원인마다 살해됩니다.

감사합니다.

해결법

  1. ==============================

    1.그것은 단지 다른 후 하나의 행 그룹을 배치하기 때문에 나는 마루 - 도구를 병합 사용하는 것이 좋습니다 않을 것이다, 그래서 당신은 여전히 ​​하나의 파일에 함께 포장, 소규모 그룹이있을 것이다. 결과 파일은 일반적으로 noticably 더 나은 성능을하지 않으며, 특정 상황에서 심지어는 별도의 파일보다 더 수행 할 수 있습니다. 자세한 내용은 나무 마루-1115을 참조하십시오.

    그것은 단지 다른 후 하나의 행 그룹을 배치하기 때문에 나는 마루 - 도구를 병합 사용하는 것이 좋습니다 않을 것이다, 그래서 당신은 여전히 ​​하나의 파일에 함께 포장, 소규모 그룹이있을 것이다. 결과 파일은 일반적으로 noticably 더 나은 성능을하지 않으며, 특정 상황에서 심지어는 별도의 파일보다 더 수행 할 수 있습니다. 자세한 내용은 나무 마루-1115을 참조하십시오.

    마루 파일을 병합하는 현재 유일한 적절한 방법은 그들로부터 모든 데이터를 읽고 새로운 마루 파일에 기록하는 것입니다. 당신은 (이 목적을 위해 사용자 지정 코드를 작성 필요) 또는 스파크, 하이브 또는 임팔라를 사용하여 맵리 듀스 작업을 함께 할 수 있습니다.

  2. from https://stackoverflow.com/questions/50299815/effectively-merge-big-parquet-files by cc-by-sa and MIT license