복붙노트

[HADOOP] 무료 대형 데이터 세트로 Hadoop을 실험 해보십시오.

HADOOP

무료 대형 데이터 세트로 Hadoop을 실험 해보십시오.

무료 / 저렴한 비용으로 Hadoop을 실험 할 수있는 대규모 데이터 세트를 알고 계십니까? 관련된 모든 포인터 / 링크는 높이 평가됩니다.

우선권:

지금까지 내가 발견 한 것들은 거의 없다.

또한 사이트에서 데이터를 수집하기 위해 자체 크롤러를 실행할 수 있습니다. 위키 백과? 이 작업을 수행하는 방법에 대한 모든 지침도 감사합니다.

해결법

  1. ==============================

    1.크롤링 및 위키 백과 관련하여 질문에 대한 몇 가지 유의 사항.

    크롤링 및 위키 백과 관련하여 질문에 대한 몇 가지 유의 사항.

    위키피디아 데이터 덤프에 링크되어 있으며 UMD의 Cloud9 프로젝트를 사용하여 Hadoop에서이 데이터를 사용할 수 있습니다.

    그들은 이것에 대한 페이지를 가지고 있습니다 : Wikipedia 작업

    목록에 추가 할 다른 데이터 소스는 다음과 같습니다.

    크롤러를 사용하여 데이터를 생성하려면 Hadoop / MapReduce에 대한 별도의 질문으로 게시해야합니다.

  2. ==============================

    2.하나의 명백한 출처 : 스택 오버플로는 데이터 덤프를 부수적으로 사용합니다. 이것들은 크리에이티브 커먼즈 라이센스 하에서 자유롭게 사용할 수 있습니다.

    하나의 명백한 출처 : 스택 오버플로는 데이터 덤프를 부수적으로 사용합니다. 이것들은 크리에이티브 커먼즈 라이센스 하에서 자유롭게 사용할 수 있습니다.

  3. ==============================

    3.이것은 기계 학습을위한 189 개의 데이터 세트 모음입니다 (이것은 hadoop g의 가장 좋은 응용 프로그램 중 하나입니다). http://archive.ics.uci.edu/ml/datasets.html

    이것은 기계 학습을위한 189 개의 데이터 세트 모음입니다 (이것은 hadoop g의 가장 좋은 응용 프로그램 중 하나입니다). http://archive.ics.uci.edu/ml/datasets.html

  4. ==============================

    4.로그 파일은 아니지만 OpenStreetMap의 행성 파일을 사용할 수도 있습니다. http://wiki.openstreetmap.org/wiki/Planet.osm

    로그 파일은 아니지만 OpenStreetMap의 행성 파일을 사용할 수도 있습니다. http://wiki.openstreetmap.org/wiki/Planet.osm

    CC 라이센스, 약 160GB (압축을 푼)

    또한 각 대륙별로 작은 파일이 있습니다. http://wiki.openstreetmap.org/wiki/World

  5. from https://stackoverflow.com/questions/2674421/free-large-datasets-to-experiment-with-hadoop by cc-by-sa and MIT license