복붙노트

[HADOOP] Hadoop 용 대규모 데이터 다운로드 [닫힘]

HADOOP

Hadoop 용 대규모 데이터 다운로드 [닫힘]

Hadoop 데모를 실행하려면 큰 데이터 (10GB 이상)가 필요합니다. 아무도 내가 그것을 다운로드 할 수있는 곳으로 알려져 있습니다. 저에게 알려주세요.

해결법

  1. ==============================

    1.다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.

    다음 웹 사이트에서 백만 곡 데이터 세트를 다운로드하는 것이 좋습니다.

    http://labrosa.ee.columbia.edu/millionsong/

    수백만 곡 데이터 세트의 가장 좋은 점은 1GB (약 10000 곡), 10GB, 50GB 또는 약 300GB 데이터 세트를 Hadoop 클러스터에 다운로드하고 원하는 테스트를 수행 할 수 있다는 점입니다. 나는 그것을 사용하는 것을 좋아하고이 데이터 세트를 사용하여 많은 것을 배웁니다.

    시작하려면 1GB에서 20GB까지의 범위가되는 A-Z의 문자 하나를 사용하여 데이터 세트 시작을 다운로드 할 수 있습니다. Infochimp 사이트도 사용할 수 있습니다.

    http://www.infochimps.com/collections/million-songs

    다음 블로그 중 하나에서 1GB 데이터 세트를 다운로드하고 돼지 스크립트를 실행하는 방법을 보여 줬습니다.

    http://blogs.msdn.com/b/avkashchauhan/archive/2012/04/12/processing-million-songs-dataset-with-pig-scripts-on-apache-hadoop-on-windows-azure.aspx

  2. ==============================

    2.Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.

    Tom White는 그의 책 (Hadoop : 최종 가이드)에있는 샘플 날씨 데이터 세트에 대해 언급했습니다.

    http://hadoopbook.com/code.html

    데이터는 100 년 이상 사용할 수 있습니다.

    나는 리눅스에서 데이터를 가져 오기 위해 wget을 사용했다. 2007 년 자체의 데이터 크기는 27GB입니다.

    그것은 FTP 링크로 호스팅됩니다. 따라서 모든 FTP 유틸리티로 다운로드 할 수 있습니다.

    ftp://ftp.ncdc.noaa.gov/pub/data/noaa/

    자세한 내용은 내 블로그를 확인하십시오 :

    http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html

  3. ==============================

    3.Amazon에 공개 데이터 세트가 있습니다. http://aws.amazon.com/publicdatasets/ 데모 클러스터를 실행하는 것을 고려해 볼 것을 제안합니다. 따라서 다운로드를 저장하십시오. amazon s3에서도 사용할 수있는 Common Crawl의 멋진 웹 데이터 집합이 있습니다. http://commoncrawl.org/

    Amazon에 공개 데이터 세트가 있습니다. http://aws.amazon.com/publicdatasets/ 데모 클러스터를 실행하는 것을 고려해 볼 것을 제안합니다. 따라서 다운로드를 저장하십시오. amazon s3에서도 사용할 수있는 Common Crawl의 멋진 웹 데이터 집합이 있습니다. http://commoncrawl.org/

  4. ==============================

    4.관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"

    관심있는 기사, "Hadoop을 사용하여 WikiHadoop을 사용하여 전체 Wikipedia 덤프 파일을 분석하는 방법"

    Wikipedia 페이지 뷰 통계를 따른다면 도움이 될 것입니다. 현재 날짜까지 2007 년부터 pagecount 파일을 다운로드 할 수 있습니다. 파일 크기에 대한 아이디어를 얻으려면 24 개의 파일에 걸쳐 하루에 1.9GB (여기에서 2012-05-01를 선택했습니다)를 배포하십시오.

    현재 31 개 국가에서 다양한 형식의 공개 데이터를 제공하는 사이트가 있습니다 (http://www.data.gov/opendatasites). 또한 세계 은행은 http://data.worldbank.org/data-catalog에서 이용 가능한 데이터를 제공합니다.

  5. ==============================

    5.인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?

    인터넷 전체에서 분산 된 스캔으로 수집 된 데이터 인 "Internet Census 2012"는 어떻습니까?

    공지 사항 : http://seclists.org/fulldisclosure/2013/Mar/166

    데이터 : http://internetcensus2012.bitbucket.org/

    전체 데이터는 7TB이며 (분명히) 토런트에서만 사용할 수 있습니다.

  6. ==============================

    6.국가 지표에 관심이 있으시면 worldbank.org를 찾아보십시오. 제공하는 데이터는 CSV로 내보낼 수 있으므로 Hadoop에서 작업하기가 매우 쉽습니다. .NET을 사용하는 경우 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 블로그 게시물을 작성하여 데이터의 모양을 볼 수 있으며 gidhub https://github.com/ryan-popa/Hadoop-Analysis의 코드에는 이미 문자열 분석 방법이 있습니다.

    국가 지표에 관심이 있으시면 worldbank.org를 찾아보십시오. 제공하는 데이터는 CSV로 내보낼 수 있으므로 Hadoop에서 작업하기가 매우 쉽습니다. .NET을 사용하는 경우 http://ryanlovessoftware.blogspot.ro/2014/02/creating-hadoop-framework-for-analysing.html 블로그 게시물을 작성하여 데이터의 모양을 볼 수 있으며 gidhub https://github.com/ryan-popa/Hadoop-Analysis의 코드에는 이미 문자열 분석 방법이 있습니다.

  7. ==============================

    7.데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.

    데이터를 다운로드하여 올려 놓는 것보다 데이터를 생성하는 것이 더 빠를 수도 있습니다. 이렇게하면 문제 도메인을 제어하고 데모를보고있는 사람들에게 의미를 부여 할 수 있다는 장점이 있습니다.

  8. from https://stackoverflow.com/questions/10843892/download-large-data-for-hadoop by cc-by-sa and MIT license