복붙노트

[HADOOP] Hadoop은 시뮬레이션을 실행하는 데 적합합니까?

HADOOP

Hadoop은 시뮬레이션을 실행하는 데 적합합니까?

(약 100MB의) 디스크에있는 몇 개의 CSV 파일에서 데이터를로드하고 결과를 다른 출력 파일 (많지 않은 데이터, 부울 및 소수의 숫자)에 쓰는 Java에서 확률 적 시뮬레이션을 작성했습니다. 매개 변수 파일도 있으며, 다른 매개 변수의 경우 시뮬레이션 출력 분포가 변경 될 것으로 예상됩니다. 올바른 / 최상의 입력 매개 변수를 결정하려면 여러 입력 매개 변수 구성에서 여러 시뮬레이션을 실행하고 각 그룹의 출력 분포를 조사해야합니다. 각 시뮬레이션은 매개 변수와 임의성에 따라 0.1 ~ 10 분이 소요됩니다.

나는 Hadoop에 대해 읽었으며 그것이 많은 시뮬레이션을하는 데 도움이 될지 궁금해했다. 가까운 장래에 약 8 대의 네트워크 데스크톱 컴퓨터에 액세스 할 수 있습니다. 내가 올바르게 이해하면지도 함수가 시뮬레이션을 실행하고 결과를 내뱉을 수 있고 감속기가 신원 일 수 있습니다.

내가 걱정하는 것은 거대한 파일을 의미하는 HDFS, 작은 CSV 파일을 깔끔하게 정리하지 않는 것 (64MB의 최소 권장 블록 크기를 구성하기에 충분한 크기는 아님)입니다. 또한 각 시뮬레이션에는 각 CSV 파일의 동일한 복사본 만 필요합니다.

Hadoop이 나를위한 잘못된 도구입니까?

해결법

  1. ==============================

    1.기본적으로 "아니오, 시뮬레이션을 위해 Hadoop을 사용하면 안됩니다. 시뮬레이션 용으로 제작되지 않았기 때문에." 나는 이것이 다소 짧은 견해이며 1985 년에 "당신은 워드 프로세싱을 위해 PC를 사용할 수없고, 스프레드 시트를 위해 PC를 사용할 수 없습니다!"라고 말하는 사람과 비슷할 것이라고 생각합니다.

    기본적으로 "아니오, 시뮬레이션을 위해 Hadoop을 사용하면 안됩니다. 시뮬레이션 용으로 제작되지 않았기 때문에." 나는 이것이 다소 짧은 견해이며 1985 년에 "당신은 워드 프로세싱을 위해 PC를 사용할 수없고, 스프레드 시트를 위해 PC를 사용할 수 없습니다!"라고 말하는 사람과 비슷할 것이라고 생각합니다.

    Hadoop은 시뮬레이션 엔진을 구축하는 환상적인 프레임 워크입니다. 나는 이것을 몇 개월 동안이 목적을 위해 사용 해왔고 작은 데이터 / 큰 계산 문제로 큰 성공을 거두었습니다. 다음은 시뮬레이션을 위해 Hadoop으로 이전 한 5 가지 이유입니다 (R을 시뮬레이션 용 언어로 사용함, btw).

  2. ==============================

    2.Hadoop 클러스터가 이미있는 경우 Hadoop이 시뮬레이션을 수행 할 수 있지만 설명하는 애플리케이션 종류에 가장 적합한 도구는 아닙니다. Hadoop은 대용량 데이터를 처리 할 수 ​​있도록 제작되었으며 큰 데이터가 없습니다. 계산량이 많습니다.

    Hadoop 클러스터가 이미있는 경우 Hadoop이 시뮬레이션을 수행 할 수 있지만 설명하는 애플리케이션 종류에 가장 적합한 도구는 아닙니다. Hadoop은 대용량 데이터를 처리 할 수 ​​있도록 제작되었으며 큰 데이터가 없습니다. 계산량이 많습니다.

    나는 Gearman (http://gearman.org/) 같은 것을 좋아한다.

  3. ==============================

    3.Hadoop과 함께 MapReduce를 사용할 수는 있지만, Condor 또는 Sun Grid Engine과 같은 그리드 / 작업 스케줄러에 더 적합 할 수 있습니다. Hadoop은 단일 (매우 큰) 입력을 처리하고 작업자 기계가 처리 할 청크로 분할 한 다음 출력을 생성하기 위해 축소하는 작업에 더 적합합니다.

    Hadoop과 함께 MapReduce를 사용할 수는 있지만, Condor 또는 Sun Grid Engine과 같은 그리드 / 작업 스케줄러에 더 적합 할 수 있습니다. Hadoop은 단일 (매우 큰) 입력을 처리하고 작업자 기계가 처리 할 청크로 분할 한 다음 출력을 생성하기 위해 축소하는 작업에 더 적합합니다.

  4. ==============================

    4.이미 Java를 사용하고 있기 때문에 GridGain을 살펴 보는 것이 좋습니다. 생각해 보면 문제에 특히 적합합니다.

    이미 Java를 사용하고 있기 때문에 GridGain을 살펴 보는 것이 좋습니다. 생각해 보면 문제에 특히 적합합니다.

  5. ==============================

    5.간단히 말해서 Hadoop이 여기에서 문제를 해결할 수도 있지만, 목적에 맞는 도구는 아닙니다.

    간단히 말해서 Hadoop이 여기에서 문제를 해결할 수도 있지만, 목적에 맞는 도구는 아닙니다.

  6. from https://stackoverflow.com/questions/1589821/is-hadoop-right-for-running-my-simulations by cc-by-sa and MIT license