[HADOOP] Hadoop WordCount 예제 문제, 성능 조정이 필요합니까?
HADOOPHadoop WordCount 예제 문제, 성능 조정이 필요합니까?
저는 Hadoop의 초보자입니다.
최근에 WordCount 예제를 구현했습니다.
그러나 2 개의 입력 파일, 단 9 단어로 단일 노드 에서이 프로그램을 실행하면 거의 33 초가 소요됩니다! 너무 미친, 그리고 그것은 나를 너무 혼란스럽게합니다!
어느 누구도 이것이 정상인지 아니면 말해 줄 수 있습니까?
이 문제를 어떻게 해결할 수 있습니까? 단지 9 단어로 2 개의 입력 파일을 만듭니다.
해결법
-
==============================
1.하둡은 매우 작은 작업에는 효율적이지 않습니다. JVM 시작, 프로세스 초기화 및 기타 작업에 더 많은 시간이 걸립니다. 그러나 JVM 재사용을 가능하게하여 어느 정도 최적화 할 수 있습니다.
하둡은 매우 작은 작업에는 효율적이지 않습니다. JVM 시작, 프로세스 초기화 및 기타 작업에 더 많은 시간이 걸립니다. 그러나 JVM 재사용을 가능하게하여 어느 정도 최적화 할 수 있습니다.
http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html#Task+JVM+Reuse
또한 Apache Hadoop 에서이 작업을 수행하고 있습니다.
https://issues.apache.org/jira/browse/MAPREDUCE-1220
어떤 릴리스에 포함되어 있는지 또는 JIRA의 상태가 무엇인지 확실하지 않습니다.
-
==============================
2.이것은 드문 일이 아닙니다. 하둡은 대규모 데이터 세트에 적용됩니다. 당신이보고있는 것은 아마도 하둡의 초기 시작 시간 일 것입니다.
이것은 드문 일이 아닙니다. 하둡은 대규모 데이터 세트에 적용됩니다. 당신이보고있는 것은 아마도 하둡의 초기 시작 시간 일 것입니다.
from https://stackoverflow.com/questions/6953077/hadoop-wordcount-example-problem-do-i-need-to-do-some-performance-tuning by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 하둡 : 슬레이브 노드가 시작되지 않습니다 (0) | 2019.09.08 |
---|---|
[HADOOP] 하둡 클러스터의 노드 수 (0) | 2019.09.08 |
[HADOOP] 임팔라 : 오류 : AnalysisException : 파티션 사양이 없습니다. (0) | 2019.09.08 |
[HADOOP] Apache Spark에서 여러 열을 추가하는 방법 (0) | 2019.09.08 |
[HADOOP] hdfs에서 mysql로 sqoop 내보내기에 실패했습니다. 문자를 이스케이프 처리하는 데 도움이 필요합니다 (0) | 2019.09.08 |