Hadoop 용 대규모 데이터 다운로드 [닫힘]

Hadoop 데모를 실행하려면 큰 데이터 (10GB 이상)가 필요합니다. 아무도 내가 그것을 다운로드 할 수있는 곳으로 알려져 있습니다. 저에게 알려주세요.

해결법

==============================
1.다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.

다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.

http://labrosa.ee.columbia.edu/millionsong/

수백만 곡 데이터 세트의 가장 좋은 점은 1GB (약 10000 곡), 10GB, 50GB 또는 약 300GB 데이터 세트를 Hadoop 클러스터에 다운로드하고 원하는 테스트를 수행 할 수 있다는 점입니다. 나는 그것을 사용하는 것을 좋아하고이 데이터 세트를 사용하여 많은 것을 배웁니다.

시작하려면 1GB에서 20GB까지의 범위가되는 A-Z의 문자 하나를 사용하여 데이터 세트 시작을 다운로드 할 수 있습니다. Infochimp 사이트도 사용할 수 있습니다.

http://www.infochimps.com/collections/million-songs

다음 블로그 중 하나에서 1GB 데이터 세트를 다운로드하고 돼지 스크립트를 실행하는 방법을 보여 줬습니다.

http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx
==============================
2.Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.

Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.

http://hadoopbook.com/code.html

데이터는 100 년 이상 사용할 수 있습니다.

나는 리눅스에서 데이터를 가져 오기 위해 wget을 사용했다. 2007 년 자체의 데이터 크기는 27GB입니다.

그것은 FTP 링크로 호스팅됩니다. 따라서 모든 FTP 유틸리티로 다운로드 할 수 있습니다.

ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

자세한 내용은 내 블로그를 확인하십시오 :

http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
==============================
3.Amazon에 공개 데이터 세트가 있습니다. http://aws.amazon.com/publicdatasets/ 데모 클러스터를 실행하는 것을 고려해 볼 것을 제안합니다. 따라서 다운로드를 저장하십시오. amazon s3에서도 사용할 수있는 Common Crawl의 멋진 웹 데이터 집합이 있습니다. http://commoncrawl.org/

Amazon에 공개 데이터 세트가 있습니다. http://aws.amazon.com/publicdatasets/ 데모 클러스터를 실행하는 것을 고려해 볼 것을 제안합니다. 따라서 다운로드를 저장하십시오. amazon s3에서도 사용할 수있는 Common Crawl의 멋진 웹 데이터 집합이 있습니다. http://commoncrawl.org/
==============================
4.관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"

관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"

Wikipedia 페이지 뷰 통계를 따른다면 도움이 될 것입니다. 현재 날짜까지 2007 년부터 pagecount 파일을 다운로드 할 수 있습니다. 파일 크기에 대한 아이디어를 얻으려면 24 개의 파일에 걸쳐 하루에 1.9GB (여기에서 2012-05-01를 선택했습니다)를 배포하십시오.

현재 31 개 국가에서 다양한 형식의 공개 데이터를 제공하는 사이트가 있습니다 (http://www.data.gov/opendatasites). 또한 세계 은행은 http://data.worldbank.org/data-catalog에서 이용 가능한 데이터를 제공합니다.
==============================
5.인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?

인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?

공지 사항 : http://seclists.org/fulldisclosure/2013/Mar/166

데이터 : http://internetcensus2012.bitbucket.org/

전체 데이터는 7TB이며 (분명히) 토런트에서만 사용할 수 있습니다.
==============================
6.국가 지표에 관심이 있으시면 worldbank.org를 찾아보십시오. 제공하는 데이터는 CSV로 내보낼 수 있으므로 Hadoop에서 작업하기가 매우 쉽습니다. .NET을 사용하는 경우 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 블로그 게시물을 작성하여 데이터의 모양을 볼 수 있으며 gidhub https://github.com/ryan-popa/Hadoop-Analysis의 코드에는 이미 문자열 분석 방법이 있습니다.

국가 지표에 관심이 있으시면 worldbank.org를 찾아보십시오. 제공하는 데이터는 CSV로 내보낼 수 있으므로 Hadoop에서 작업하기가 매우 쉽습니다. .NET을 사용하는 경우 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 블로그 게시물을 작성하여 데이터의 모양을 볼 수 있으며 gidhub https://github.com/ryan-popa/Hadoop-Analysis의 코드에는 이미 문자열 분석 방법이 있습니다.
==============================
7.데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.

데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.

from https://stackoverflow.com/questions/10843892/download-large-data-for-hadoop by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] hadoop 맵에서 그룹 비교기를 사용하는 것은 무엇입니까 reduce (0)	2019.05.30
[HADOOP] Hadoop 프로그램의 매퍼에서 입력 파일 이름을 가져 오는 방법은 무엇입니까? (0)	2019.05.30
[HADOOP] 익명 클래스의 NotSerializableException (0)	2019.05.30
[HADOOP] java.sql.SQLException : 하이브에있는 org.apache.thrift.transport.TTransportException? (0)	2019.05.30
[HADOOP] 하이브가 수동으로 감속기 수를 설정할 수 없음 (0)	2019.05.30

복붙노트

[HADOOP] Hadoop 용 대규모 데이터 다운로드 [닫힘]

Hadoop 용 대규모 데이터 다운로드 [닫힘]

해결법

1.다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.

2.Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.

4.관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"

5.인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?

7.데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바