복붙노트

[HADOOP] 하둡에 대한 경험이 있으십니까?

HADOOP

하둡에 대한 경험이 있으십니까?

Hadoop을 사용해 본 사람이 있습니까? 비공유 아키텍처에서 공유 파일 시스템없이 사용할 수 있습니까? 그게 말이 되겠습니까?

나는 또한 당신이 가지고있는 성과 결과에 관심이있다.

해결법

  1. ==============================

    1.예, 여러 위치에서 hdfs URI 대신 파일 URI를 사용하여 로컬 파일 시스템에서 Hadoop을 사용할 수 있습니다. Hadoop과 함께 제공되는 많은 예제가이 작업을 수행한다고 생각합니다.

    예, 여러 위치에서 hdfs URI 대신 파일 URI를 사용하여 로컬 파일 시스템에서 Hadoop을 사용할 수 있습니다. Hadoop과 함께 제공되는 많은 예제가이 작업을 수행한다고 생각합니다.

    Hadoop의 작동 방식과 기본 map-reduce 패러다임을 배우고 싶다면 아키텍처에 고유 한 확장 성의 실질적인 이점을 얻으려면 여러 대의 컴퓨터와 분산 파일 시스템이 필요합니다.

  2. ==============================

    2.Hadoop MapReduce는 모든 파일 시스템 또는 데이터베이스와 같은보다 추상적 인 데이터 소스의 온톨을 실행할 수 있습니다. 실제로 S3 및 FTP와 같은 비 HDFS 파일 시스템 지원을위한 몇 가지 기본 제공 클래스가 있습니다. 기본 InputFormat 클래스를 확장하여 자신 만의 입력 형식을 쉽게 만들 수도 있습니다.

    Hadoop MapReduce는 모든 파일 시스템 또는 데이터베이스와 같은보다 추상적 인 데이터 소스의 온톨을 실행할 수 있습니다. 실제로 S3 및 FTP와 같은 비 HDFS 파일 시스템 지원을위한 몇 가지 기본 제공 클래스가 있습니다. 기본 InputFormat 클래스를 확장하여 자신 만의 입력 형식을 쉽게 만들 수도 있습니다.

    그러나 HDFS를 사용하면 특정 이점이 있습니다. 가장 강력한 장점은 MapReduce 작업 스케줄러가 맵을 실행하려고 시도하고 처리가 필요한 레코드를 저장하고있는 실제 머신을 줄이는 것입니다. 이는 데이터가 네트워크를 통해 전송되는 대신 로컬 디스크에서 곧바로로드 될 수 있기 때문에 성능이 향상됩니다. 연결에 따라 데이터의 순서가 느려질 수 있습니다.

  3. ==============================

    3.Joe는 HDFS없이 하둡을 실제로 사용할 수 있다고 말했습니다. 그러나 처리량은 데이터가 저장되는 곳 근처에서 계산을 수행하는 클러스터의 기능에 따라 달라집니다. HDFS 사용은 2 가지 주요 이점을 가지고 있습니다. IMHO 1) 계산이 클러스터 전체로 균등하게 분산되어 (노드 간 통신의 양이 줄어 듭니다.) 2) 클러스터가 전체적으로 데이터 가용성으로 인해 실패에 내성을 갖습니다.

    Joe는 HDFS없이 하둡을 실제로 사용할 수 있다고 말했습니다. 그러나 처리량은 데이터가 저장되는 곳 근처에서 계산을 수행하는 클러스터의 기능에 따라 달라집니다. HDFS 사용은 2 가지 주요 이점을 가지고 있습니다. IMHO 1) 계산이 클러스터 전체로 균등하게 분산되어 (노드 간 통신의 양이 줄어 듭니다.) 2) 클러스터가 전체적으로 데이터 가용성으로 인해 실패에 내성을 갖습니다.

    데이터가 이미 파티셔닝되어 있거나 쉽게 파티셔닝 할 수있는 경우 map-reduce 태스크를위한 자체 파티셔닝 기능을 제공하는 것이 좋습니다.

  4. ==============================

    4.Hadoop을 둘러 보는 가장 좋은 방법은 그것을 다운로드하고 include 예제를 살펴 보는 것입니다. Linux box / VM을 사용하면 Mac 또는 Windows보다 설정이 훨씬 쉬워집니다. 샘플 및 개념에 익숙해지면 문제 공간이 프레임 워크에 어떻게 맵핑되는지 살펴보십시오.

    Hadoop을 둘러 보는 가장 좋은 방법은 그것을 다운로드하고 include 예제를 살펴 보는 것입니다. Linux box / VM을 사용하면 Mac 또는 Windows보다 설정이 훨씬 쉬워집니다. 샘플 및 개념에 익숙해지면 문제 공간이 프레임 워크에 어떻게 맵핑되는지 살펴보십시오.

    Hadoop에 대한 자세한 정보를 얻을 수있는 몇 가지 자료가 있습니다.

    하둡 정상 회의 비디오 및 프리젠 테이션

    Hadoop : The Definitive Guide : Rough Cuts Version - 현재 Hadoop에서 사용할 수있는 소수의 도서 중 하나입니다. 이 시점에서도 전자 다운로드 옵션의 가격 만 할 만하다고 말하고 싶습니다 (이 책은 ~ 40 % 완성되었습니다).

  5. ==============================

    5.병렬 / 분산 컴퓨팅 = 속도 << Hadoop은 많은 상품 기계를 사용할 수 있기 때문에 이것을 정말 쉽고 저렴하게 만듭니다 !!!

    병렬 / 분산 컴퓨팅 = 속도 << Hadoop은 많은 상품 기계를 사용할 수 있기 때문에 이것을 정말 쉽고 저렴하게 만듭니다 !!!

    수년에 걸쳐 디스크 저장 용량은 대폭 증가했지만 데이터를 읽는 속도는 유지되지 않았습니다. 하나의 디스크에있는 데이터가 많을수록 검색 속도가 느려집니다.

    Hadoop은 정복 접근법을 문제 해결에 분할하는 영리한 변형입니다. 본질적으로 문제를 작은 청크로 나누고 청크를 여러 대의 컴퓨터에 할당하여 병렬 처리를 수행하여 하나의 시스템에 과부하가 걸리지 않고 처리 속도를 향상시킵니다. 각 기계는 자체 데이터 서브 세트를 처리하고 결과는 결국 결합됩니다. 단일 노드의 Hadoop은 중요한 속도를 제공하지 않습니다.

    hadoop의 이점을 확인하려면 동일한 랙에 적어도 4 - 8 대의 상용 기계 (데이터 크기에 따라 다름)가있는 클러스터가 있어야합니다.

    더 이상 분산 컴퓨팅을 활용할 수있는 최고의 천재 병렬 시스템 엔지니어 일 필요가 없습니다. 하이브 (Hive)와 너의 좋은 점을 알아라.

  6. ==============================

    6.예, hadoop은 HDFS없이 아주 잘 사용될 수 있습니다. HDFS는 Hadoop의 기본 저장소 일뿐입니다. HDFS를 데이터베이스와 같은 다른 스토리지로 대체 할 수 있습니다. HadoopDB는 HDFS 대신 데이터베이스를 데이터 소스로 사용하는 hadoop을 보강 한 것입니다. Google은 그것을 쉽게 얻을 것입니다.

    예, hadoop은 HDFS없이 아주 잘 사용될 수 있습니다. HDFS는 Hadoop의 기본 저장소 일뿐입니다. HDFS를 데이터베이스와 같은 다른 스토리지로 대체 할 수 있습니다. HadoopDB는 HDFS 대신 데이터베이스를 데이터 소스로 사용하는 hadoop을 보강 한 것입니다. Google은 그것을 쉽게 얻을 것입니다.

  7. ==============================

    7.발을 젖게하는 경우 CDH4를 다운로드하고 실행하여 시작하십시오. 로컬 가상 머신에 쉽게 설치하고 실제 클러스터에서 실행되는 방법을 모방 한 "의사 배포 모드"에서 실행할 수 있습니다.

    발을 젖게하는 경우 CDH4를 다운로드하고 실행하여 시작하십시오. 로컬 가상 머신에 쉽게 설치하고 실제 클러스터에서 실행되는 방법을 모방 한 "의사 배포 모드"에서 실행할 수 있습니다.

  8. ==============================

    8.예 당신은 입력 파일 등을 지정하는 동안 file : //를 사용하는 로컬 파일 시스템을 사용할 수 있습니다. 이것은 작은 데이터 세트에서도 작동합니다.하지만 hadoop의 실제 성능은 분산 및 공유 메커니즘을 기반으로합니다. 그러나 Hadoop은 엄청난 양의 데이터를 처리하는 데 사용됩니다. 데이터 양은 단일 로컬 시스템에서 처리 할 수 ​​없으며 작업을 완료하는 데 많은 시간이 걸릴 수도 있습니다. 입력 파일이 공유 위치 (HDFS ) 여러 매퍼가 동시에 읽을 수 있으므로 작업 완료 시간이 단축됩니다. 요약하면 로컬 파일 시스템과 함께 사용할 수 있지만 비즈니스 요구 사항을 충족하려면 공유 파일 시스템과 함께 사용해야합니다.

    예 당신은 입력 파일 등을 지정하는 동안 file : //를 사용하는 로컬 파일 시스템을 사용할 수 있습니다. 이것은 작은 데이터 세트에서도 작동합니다.하지만 hadoop의 실제 성능은 분산 및 공유 메커니즘을 기반으로합니다. 그러나 Hadoop은 엄청난 양의 데이터를 처리하는 데 사용됩니다. 데이터 양은 단일 로컬 시스템에서 처리 할 수 ​​없으며 작업을 완료하는 데 많은 시간이 걸릴 수도 있습니다. 입력 파일이 공유 위치 (HDFS ) 여러 매퍼가 동시에 읽을 수 있으므로 작업 완료 시간이 단축됩니다. 요약하면 로컬 파일 시스템과 함께 사용할 수 있지만 비즈니스 요구 사항을 충족하려면 공유 파일 시스템과 함께 사용해야합니다.

  9. ==============================

    9.위대한 이론적 인 답변.

    위대한 이론적 인 답변.

    hadoop 파일 시스템을 로컬로 변경하려면 hadoop 버전 2.x.x의 경우 아래와 같이 "core-site.xml"구성 파일에서 변경할 수 있습니다.

     <property>
        <name>fs.defaultFS</name>
        <value>file:///</value>
      </property>
    

    hadoop 버전 1.x.x 용.

     <property>
        <name>fs.default.name</name>
        <value>file:///</value>
      </property>
    
  10. from https://stackoverflow.com/questions/17721/experience-with-hadoop by cc-by-sa and MIT license