복붙노트

[HADOOP] Hadoop WordCount 예제 문제, 성능 조정이 필요합니까?

HADOOP

Hadoop WordCount 예제 문제, 성능 조정이 필요합니까?

저는 Hadoop의 초보자입니다.

최근에 WordCount 예제를 구현했습니다.

그러나 2 개의 입력 파일, 단 9 단어로 단일 노드 에서이 프로그램을 실행하면 거의 33 초가 소요됩니다! 너무 미친, 그리고 그것은 나를 너무 혼란스럽게합니다!

어느 누구도 이것이 정상인지 아니면 말해 줄 수 있습니까?

이 문제를 어떻게 해결할 수 있습니까? 단지 9 단어로 2 개의 입력 파일을 만듭니다.

해결법

  1. ==============================

    1.하둡은 매우 작은 작업에는 효율적이지 않습니다. JVM 시작, 프로세스 초기화 및 기타 작업에 더 많은 시간이 걸립니다. 그러나 JVM 재사용을 가능하게하여 어느 정도 최적화 할 수 있습니다.

    하둡은 매우 작은 작업에는 효율적이지 않습니다. JVM 시작, 프로세스 초기화 및 기타 작업에 더 많은 시간이 걸립니다. 그러나 JVM 재사용을 가능하게하여 어느 정도 최적화 할 수 있습니다.

    http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse

    또한 Apache Hadoop 에서이 작업을 수행하고 있습니다.

    https://issues.apache.org/jira/browse/MAPREDUCE-1220

    어떤 릴리스에 포함되어 있는지 또는 JIRA의 상태가 무엇인지 확실하지 않습니다.

  2. ==============================

    2.이것은 드문 일이 아닙니다. 하둡은 대규모 데이터 세트에 적용됩니다. 당신이보고있는 것은 아마도 하둡의 초기 시작 시간 일 것입니다.

    이것은 드문 일이 아닙니다. 하둡은 대규모 데이터 세트에 적용됩니다. 당신이보고있는 것은 아마도 하둡의 초기 시작 시간 일 것입니다.

  3. from https://stackoverflow.com/questions/6953077/hadoop-wordcount-example-problem-do-i-need-to-do-some-performance-tuning by cc-by-sa and MIT license