[HADOOP] Hadoop 용 대규모 데이터 다운로드 [닫힘]
HADOOPHadoop 용 대규모 데이터 다운로드 [닫힘]
Hadoop 데모를 실행하려면 큰 데이터 (10GB 이상)가 필요합니다. 아무도 내가 그것을 다운로드 할 수있는 곳으로 알려져 있습니다. 저에게 알려주세요.
해결법
-
==============================
1.다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.
다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.
http://labrosa.ee.columbia.edu/millionsong/
수백만 곡 데이터 세트의 가장 좋은 점은 1GB (약 10000 곡), 10GB, 50GB 또는 약 300GB 데이터 세트를 Hadoop 클러스터에 다운로드하고 원하는 테스트를 수행 할 수 있다는 점입니다. 나는 그것을 사용하는 것을 좋아하고이 데이터 세트를 사용하여 많은 것을 배웁니다.
시작하려면 1GB에서 20GB까지의 범위가되는 A-Z의 문자 하나를 사용하여 데이터 세트 시작을 다운로드 할 수 있습니다. Infochimp 사이트도 사용할 수 있습니다.
http://www.infochimps.com/collections/million-songs
다음 블로그 중 하나에서 1GB 데이터 세트를 다운로드하고 돼지 스크립트를 실행하는 방법을 보여 줬습니다.
http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx
-
==============================
2.Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.
Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.
http://hadoopbook.com/code.html
데이터는 100 년 이상 사용할 수 있습니다.
나는 리눅스에서 데이터를 가져 오기 위해 wget을 사용했다. 2007 년 자체의 데이터 크기는 27GB입니다.
그것은 FTP 링크로 호스팅됩니다. 따라서 모든 FTP 유틸리티로 다운로드 할 수 있습니다.
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
자세한 내용은 내 블로그를 확인하십시오 :
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
-
==============================
3.Amazon에 공개 데이터 세트가 있습니다. http://aws.amazon.com/publicdatasets/ 데모 클러스터를 실행하는 것을 고려해 볼 것을 제안합니다. 따라서 다운로드를 저장하십시오. amazon s3에서도 사용할 수있는 Common Crawl의 멋진 웹 데이터 집합이 있습니다. http://commoncrawl.org/
Amazon에 공개 데이터 세트가 있습니다. http://aws.amazon.com/publicdatasets/ 데모 클러스터를 실행하는 것을 고려해 볼 것을 제안합니다. 따라서 다운로드를 저장하십시오. amazon s3에서도 사용할 수있는 Common Crawl의 멋진 웹 데이터 집합이 있습니다. http://commoncrawl.org/
-
==============================
4.관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"
관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"
Wikipedia 페이지 뷰 통계를 따른다면 도움이 될 것입니다. 현재 날짜까지 2007 년부터 pagecount 파일을 다운로드 할 수 있습니다. 파일 크기에 대한 아이디어를 얻으려면 24 개의 파일에 걸쳐 하루에 1.9GB (여기에서 2012-05-01를 선택했습니다)를 배포하십시오.
현재 31 개 국가에서 다양한 형식의 공개 데이터를 제공하는 사이트가 있습니다 (http://www.data.gov/opendatasites). 또한 세계 은행은 http://data.worldbank.org/data-catalog에서 이용 가능한 데이터를 제공합니다.
-
==============================
5.인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?
인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?
공지 사항 : http://seclists.org/fulldisclosure/2013/Mar/166
데이터 : http://internetcensus2012.bitbucket.org/
전체 데이터는 7TB이며 (분명히) 토런트에서만 사용할 수 있습니다.
-
==============================
6.국가 지표에 관심이 있으시면 worldbank.org를 찾아보십시오. 제공하는 데이터는 CSV로 내보낼 수 있으므로 Hadoop에서 작업하기가 매우 쉽습니다. .NET을 사용하는 경우 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 블로그 게시물을 작성하여 데이터의 모양을 볼 수 있으며 gidhub https://github.com/ryan-popa/Hadoop-Analysis의 코드에는 이미 문자열 분석 방법이 있습니다.
국가 지표에 관심이 있으시면 worldbank.org를 찾아보십시오. 제공하는 데이터는 CSV로 내보낼 수 있으므로 Hadoop에서 작업하기가 매우 쉽습니다. .NET을 사용하는 경우 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 블로그 게시물을 작성하여 데이터의 모양을 볼 수 있으며 gidhub https://github.com/ryan-popa/Hadoop-Analysis의 코드에는 이미 문자열 분석 방법이 있습니다.
-
==============================
7.데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.
데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.
from https://stackoverflow.com/questions/10843892/download-large-data-for-hadoop by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] hadoop 맵에서 그룹 비교기를 사용하는 것은 무엇입니까 reduce (0) | 2019.05.30 |
---|---|
[HADOOP] Hadoop 프로그램의 매퍼에서 입력 파일 이름을 가져 오는 방법은 무엇입니까? (0) | 2019.05.30 |
[HADOOP] 익명 클래스의 NotSerializableException (0) | 2019.05.30 |
[HADOOP] java.sql.SQLException : 하이브에있는 org.apache.thrift.transport.TTransportException? (0) | 2019.05.30 |
[HADOOP] 하이브가 수동으로 감속기 수를 설정할 수 없음 (0) | 2019.05.30 |