[HADOOP] 페타 바이트 단위의 데이터 검색
HADOOP페타 바이트 단위의 데이터 검색
필자는 CSV 포맷 파일에서 1 페타 바이트 이상의 데이터를 검색해야합니다. LUCENE을 사용하여 색인을 생성 한 후에는 색인 파일의 크기가 원본 파일보다 두 배가됩니다. 인덱싱 된 파일 크기를 줄일 수 있습니까 ??? HADOOP에서 LUCENE 색인 파일을 배포하는 방법과 검색 환경에서 사용하는 방법은 무엇입니까? 또는 그것이 필요합니까, 내가 solr를 사용하여 LUCENE 색인을 배포해야합니까 ??? 내 요구 사항은 파일의 페타 바이트 이상 즉시 검색을하고 있습니다 ....
해결법
-
==============================
1.선반 검색 엔진 (예 : Lucene)에서 벗어난 모든 것은 사용자가 보유한 데이터의 크기에 대한 검색 기능을 제공 할 수 있어야합니다. 인덱스를 디자인하고 검색 작동 방식을 구성하기 위해 약간의 작업을해야 할 수도 있습니다. 그러나 이것은 단지 설정입니다.
선반 검색 엔진 (예 : Lucene)에서 벗어난 모든 것은 사용자가 보유한 데이터의 크기에 대한 검색 기능을 제공 할 수 있어야합니다. 인덱스를 디자인하고 검색 작동 방식을 구성하기 위해 약간의 작업을해야 할 수도 있습니다. 그러나 이것은 단지 설정입니다.
즉각적인 결과는 얻지 못할 것이지만 매우 빠른 결과를 얻을 수 있습니다. 속도는 아마도 당신이 그것을 어떻게 셋업하고 어떤 종류의 하드웨어를 사용하는지에 달려있을 것입니다.
인덱스는 원래 데이터보다 큽니다. 이것은 예상된다. 인덱싱에는 대개 비정규 화의 일부 형식이 포함됩니다. 인덱스의 크기는 종종 속도와 균형을 이룹니다. 데이터를 미리 슬라이스 앤 다이스 방식으로수록할수록 참조를 찾는 것이 더 빠릅니다.
마지막으로 색인을 배포하는 것에 대해 언급합니다. 이는 거의 확실하게 원하는 작업이 아닙니다. 많은 페타 바이트의 데이터를 배포하는 실용성은 꽤 어렵습니다. 당신이 원하는 것은 어딘가에있는 큰 규모의 컴퓨터에 인덱스를 두어 데이터에 검색 서비스를 제공하는 것입니다 (쿼리를 데이터로 가져오고 쿼리로 데이터를 가져 가지 마십시오).
-
==============================
2.Hadoop 및 Map Reduce는 일괄 처리 모델을 기반으로합니다. 즉각적인 응답 속도를 얻지는 못 하겠지만 도구가 설계 한 것이 아닙니다. Hadoop을 사용하여 색인 속도를 높일 수는 있지만 조회를 위해 원하는 것은 수행하지 않습니다.
Hadoop 및 Map Reduce는 일괄 처리 모델을 기반으로합니다. 즉각적인 응답 속도를 얻지는 못 하겠지만 도구가 설계 한 것이 아닙니다. Hadoop을 사용하여 색인 속도를 높일 수는 있지만 조회를 위해 원하는 것은 수행하지 않습니다.
루센 (Lucene)의 카산드라 기반 백엔드 인 루 산드라 (Lucandra)를 살펴보십시오. Cassandra는 Facebook에서 개발 한 또 다른 분산 데이터 저장소로, hadoop보다 쿼리 지향 액세스 모델에서 더 빠른 액세스 시간을 위해 설계되었습니다.
-
==============================
3.구현을 변경하지 않으려면 lucene 인덱스를 10, 20 또는 그 이상의 인덱스로 분해하여 병렬로 쿼리해야합니다. 필자의 경우 (8 개의 인덱스 생성), 80GB의 데이터가 있었으며 개발자 머신 (Intel Duo Core, 3GB RAM)에서 작동하는 검색을 구현해야했습니다.
구현을 변경하지 않으려면 lucene 인덱스를 10, 20 또는 그 이상의 인덱스로 분해하여 병렬로 쿼리해야합니다. 필자의 경우 (8 개의 인덱스 생성), 80GB의 데이터가 있었으며 개발자 머신 (Intel Duo Core, 3GB RAM)에서 작동하는 검색을 구현해야했습니다.
from https://stackoverflow.com/questions/4791602/instant-searching-in-petabyte-of-data by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] MR 작업의 축소 작업에서 성공적인지도 작업 수에 액세스하는 방법이 있습니까? (0) | 2019.06.19 |
---|---|
[HADOOP] HiveQL 및 rank () (0) | 2019.06.19 |
[HADOOP] Hadoop에서 데이터 블록 크기를 설정하는 방법은 무엇입니까? 그것을 바꾸는 것이 유리한가? (0) | 2019.06.19 |
[HADOOP] 작은 파일을 사용하는 경우 HDFS에 메모리 손실이 있습니까? (0) | 2019.06.19 |
[HADOOP] sc.textFile ()을 사용하여 스파크 할 로컬 파일로드 (0) | 2019.06.19 |