복붙노트

[HADOOP] 엄청난 양의 데이터를 생성하는 방법?

HADOOP

엄청난 양의 데이터를 생성하는 방법?

나는 nutch와 hadoop로 몇 가지 테스트를하고 있으며 엄청난 양의 데이터가 필요합니다. 20GB로 시작하고 100GB, 500GB로 이동하여 결국 1-2TB에 도달하려고합니다.

문제는이 데이터 량이 없어서 제작할 수있는 방법을 생각하고 있다는 것입니다.

데이터 그 자체는 어떤 종류의 것이 될 수 있습니다. 하나의 아이디어는 초기 데이터 집합을 가져 와서 복제하는 것입니다. 그러나 서로 다른 파일이 필요하기 때문에 충분하지 않습니다 (동일한 파일은 무시됩니다).

또 다른 아이디어는 더미 데이터가있는 파일을 생성하는 프로그램을 작성하는 것입니다.

다른 생각?

해결법

  1. ==============================

    1.이것은 통계 StackExchange 사이트에서 더 좋은 질문이 될 수 있습니다 (예를 들어, 합성 데이터를 생성하는 모범 사례에 대한 내 질문 참조).

    이것은 통계 StackExchange 사이트에서 더 좋은 질문이 될 수 있습니다 (예를 들어, 합성 데이터를 생성하는 모범 사례에 대한 내 질문 참조).

    그러나 데이터 조작을위한 인프라와 데이터 속성에 관심이 없으면 통계 사이트를 무시할 수 있습니다. 특히 데이터의 통계적 측면에 초점을 맞추지 않고 단순히 "큰 데이터"를 원한다면 어떻게 데이터를 대량으로 생성 할 수 있는지에 초점을 맞출 수 있습니다.

    나는 몇 가지 해답을 제시 할 수있다.

  2. ==============================

    2.정확한 중복 만 피하려면 두 가지 아이디어를 조합 해보십시오. 비교적 작은 데이터 세트의 손상된 복사본을 만들 수 있습니다. "부패"작업에는 교체, 삽입, 삭제 및 문자 교환이 포함될 수 있습니다.

    정확한 중복 만 피하려면 두 가지 아이디어를 조합 해보십시오. 비교적 작은 데이터 세트의 손상된 복사본을 만들 수 있습니다. "부패"작업에는 교체, 삽입, 삭제 및 문자 교환이 포함될 수 있습니다.

  3. ==============================

    3.나는 그것을 할 간단한 프로그램을 작성합니다. 이 프로그램은 디스크 쓰기 속도가 병 목일 수 있으므로 너무 명확하지 않아도됩니다.

    나는 그것을 할 간단한 프로그램을 작성합니다. 이 프로그램은 디스크 쓰기 속도가 병 목일 수 있으므로 너무 명확하지 않아도됩니다.

  4. ==============================

    4.오랜 시간에 대한 논평 : 최근에 디스크 파티션을 확장했으며 많은 파일을 이동하거나 만들려면 얼마나 오래 걸릴 수 있는지 잘 알고 있습니다. OS에 디스크의 여유 공간 범위를 요청한 다음 단일 범위의 내용 (기존 정보를 다시 사용)을 작성하지 않고 해당 범위의 FAT에 새로운 항목을 작성하는 것이 훨씬 빠릅니다. 이것은 (파일 내용을 신경 쓰지 않기 때문에) 목적을 달성하고 파일을 삭제하는 것만큼이나 빠릅니다.

    오랜 시간에 대한 논평 : 최근에 디스크 파티션을 확장했으며 많은 파일을 이동하거나 만들려면 얼마나 오래 걸릴 수 있는지 잘 알고 있습니다. OS에 디스크의 여유 공간 범위를 요청한 다음 단일 범위의 내용 (기존 정보를 다시 사용)을 작성하지 않고 해당 범위의 FAT에 새로운 항목을 작성하는 것이 훨씬 빠릅니다. 이것은 (파일 내용을 신경 쓰지 않기 때문에) 목적을 달성하고 파일을 삭제하는 것만큼이나 빠릅니다.

    문제는 이것이 자바에서 달성하기 어려울 수 있다는 것입니다. 내가 fat32 - lib라는 오픈 소스 라이브러리를 찾았지만, 네이티브 코드에 의존하지 않기 때문에 여기서는 유용하다고 생각하지 않습니다. 주어진 파일 시스템에 대해, 그리고 C와 같은 저수준 언어를 사용한다면, 시간과 동기가 있다면 나는 달성 할 수있을 것이라고 생각한다.

  5. ==============================

    5.TPC.org를 살펴보면 데이터 생성기 및 사전 정의 된 쿼리와 다른 데이터베이스 벤치 마크가 있습니다.

    TPC.org를 살펴보면 데이터 생성기 및 사전 정의 된 쿼리와 다른 데이터베이스 벤치 마크가 있습니다.

    생성기에는 목표 데이터 크기를 정의 할 수있는 스케일 인수가 있습니다.

    분산 된 "빅 데이터 (big data)"데이터 생성에 초점을 둔 무수한 연구 프로젝트 (종이)가 있습니다. Myriad는 가파른 학습 곡선을 가지고 있으므로 소프트웨어 작성자에게 도움을 요청해야 할 수도 있습니다.

  6. from https://stackoverflow.com/questions/8668175/how-to-produce-massive-amount-of-data by cc-by-sa and MIT license