복붙노트

[HADOOP] 하둡과 함께 wget을 사용 하시겠습니까?

HADOOP

하둡과 함께 wget을 사용 하시겠습니까?

웹 위치에있는 데이터 세트 (~ 31GB, 확장자가 .gz 인 압축 파일)가 있으며 Hadoop 프로그램을 실행하고 싶습니다. 이 프로그램은 Hadoop과 함께 제공되는 원본 WordCount 예제에서 약간 수정되었습니다. 필자의 경우 Hadoop이 원격 컴퓨터에 설치되어 있습니다 (ssh를 통해 연결 한 다음 작업을 실행). 문제는 디스크 사용량 할당량으로 인해이 큰 데이터 세트를 원격 컴퓨터의 홈 디렉토리로 전송할 수 없다는 것입니다. 따라서 wget을 사용하여 데이터 세트를 가져 와서 HDFS에 직접 전달하는 방법이 있는지 검색하려고 시도했지만 (원격 시스템의 로컬 계정에 저장하지 않고) 운이 없습니다. 그런 방법이 존재합니까? 이 작업을 수행하기위한 다른 제안이 있습니까?

이미 Yahoo! 하둡으로 사전 구성된 VM이지만 데이터 세트가 크기 때문에 너무 느리고 메모리가 부족합니다.

해결법

  1. ==============================

    1.여기에서 답을 확인하십시오 : 원격 파일을 로컬 디스크에 복사하지 않고 hadoop에 저장

    여기에서 답을 확인하십시오 : 원격 파일을 로컬 디스크에 복사하지 않고 hadoop에 저장

    wget에서 hdfs로 데이터를 파이프 할 수 있습니다.

    그러나 문제가 생길 수 있습니다. gz는 분리 할 수 ​​없으므로 분산지도 / 축소를 실행할 수 없습니다.

    로컬로 파일을 다운로드하고 압축을 푼 다음 파이프로 묶거나 여러 파일로 분할하여 hdfs에로드하는 것이 좋습니다.

  2. from https://stackoverflow.com/questions/20256197/use-wget-with-hadoop by cc-by-sa and MIT license