[HADOOP] 하둡과 함께 wget을 사용 하시겠습니까?
HADOOP하둡과 함께 wget을 사용 하시겠습니까?
웹 위치에있는 데이터 세트 (~ 31GB, 확장자가 .gz 인 압축 파일)가 있으며 Hadoop 프로그램을 실행하고 싶습니다. 이 프로그램은 Hadoop과 함께 제공되는 원본 WordCount 예제에서 약간 수정되었습니다. 필자의 경우 Hadoop이 원격 컴퓨터에 설치되어 있습니다 (ssh를 통해 연결 한 다음 작업을 실행). 문제는 디스크 사용량 할당량으로 인해이 큰 데이터 세트를 원격 컴퓨터의 홈 디렉토리로 전송할 수 없다는 것입니다. 따라서 wget을 사용하여 데이터 세트를 가져 와서 HDFS에 직접 전달하는 방법이 있는지 검색하려고 시도했지만 (원격 시스템의 로컬 계정에 저장하지 않고) 운이 없습니다. 그런 방법이 존재합니까? 이 작업을 수행하기위한 다른 제안이 있습니까?
이미 Yahoo! 하둡으로 사전 구성된 VM이지만 데이터 세트가 크기 때문에 너무 느리고 메모리가 부족합니다.
해결법
-
==============================
1.여기에서 답을 확인하십시오 : 원격 파일을 로컬 디스크에 복사하지 않고 hadoop에 저장
여기에서 답을 확인하십시오 : 원격 파일을 로컬 디스크에 복사하지 않고 hadoop에 저장
wget에서 hdfs로 데이터를 파이프 할 수 있습니다.
그러나 문제가 생길 수 있습니다. gz는 분리 할 수 없으므로 분산지도 / 축소를 실행할 수 없습니다.
로컬로 파일을 다운로드하고 압축을 푼 다음 파이프로 묶거나 여러 파일로 분할하여 hdfs에로드하는 것이 좋습니다.
from https://stackoverflow.com/questions/20256197/use-wget-with-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 돼지를 사용하여 hdfs에서 트위터 데이터를로드하는 방법? (0) | 2019.09.09 |
---|---|
[HADOOP] JAVA를 사용하여 HDFS에서 로컬 파일 시스템으로 파일 복사 (0) | 2019.09.09 |
[HADOOP] 하이브 고장 파이프 오류 (0) | 2019.09.09 |
[HADOOP] Spark Hadoop에서 방송을받지 못했습니다 (0) | 2019.09.09 |
[HADOOP] 공동 배치 된 조인 (a-la-netezza)이 이론적으로 하이브에서 가능합니까? (0) | 2019.09.09 |