hadoop Map reduce를 사용하여 .pst를 처리 / 추출하는 방법

MAPI 도구 (Microsoft lib 및 .NET)를 사용하고 TIKA 라이브러리를 아파치 교환 서버에서 pst를 처리하고 추출하는 데 사용합니다.

MR 방법을 사용하여 pst를 처리 / 추출하는 방법 ... MR 작업에 사용할 수있는 도구, 라이브러리가 Java로 제공됩니까? 도움이 될 것입니다.

Jpst Lib은 내부적으로 다음을 사용합니다. PstFile pstFile = new PstFile (java.io.File)

그리고 문제는 Hadoop API의 경우 java.io.File에 가까운 것이 없습니다.

다음 옵션은 항상 있지만 효율적이지 않습니다.

  File tempFile = File.createTempFile("myfile", ".tmp");
  fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
  PstFile pstFile = new PstFile(tempFile);

해결법

==============================
1.Behemoth (http://digitalpebble.blogspot.com/2011/05/processing-enron-dataset-using-behemoth.html)를 살펴보십시오. Tika와 Hadoop을 결합합니다.

Behemoth (http://digitalpebble.blogspot.com/2011/05/processing-enron-dataset-using-behemoth.html)를 살펴보십시오. Tika와 Hadoop을 결합합니다.

나는 또한 자체 Hadoop + Tika 작업으로 작성했습니다. 패턴은 다음과 같습니다.

그 희망을 바랍니다.
==============================
2.매퍼에서 PST 파일을 처리 할 수 없습니다. 긴 분석 및 디버그 후 API가 올바르게 노출되지 않았으며 해당 API는 추출 된 pst 컨텐츠를 저장하기 위해 로컬 파일 시스템이 필요하다는 것을 알았습니다. HDFS에 직접 저장할 수 없습니다. 병목. 그리고 모든 API (추출 및 처리하는 라이브러리)는 무료가 아닙니다.

매퍼에서 PST 파일을 처리 할 수 없습니다. 긴 분석 및 디버그 후 API가 올바르게 노출되지 않았으며 해당 API는 추출 된 pst 컨텐츠를 저장하기 위해 로컬 파일 시스템이 필요하다는 것을 알았습니다. HDFS에 직접 저장할 수 없습니다. 병목. 그리고 모든 API (추출 및 처리하는 라이브러리)는 무료가 아닙니다.

우리가 할 수있는 일은 hdfs 외부에서 추출한 다음 MR 작업에서 처리 할 수 있습니다.

from https://stackoverflow.com/questions/10415213/how-to-process-extract-pst-using-hadoop-map-reduce by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] MapReduce 작업 수 (0)	2019.08.15
[HADOOP] 압축 파일을 입력으로하여 hadoop을 실행 중입니다. hadoop이 읽은 데이터 입력 순서가 맞지 않습니다. 숫자 형식 예외 (0)	2019.08.15
[HADOOP] 맵 감소 작업의 출력을 텍스트 파일로 로깅 (0)	2019.08.15
[HADOOP] FileInputFormat.addInputPaths를 사용하여 재귀 적으로 HDFS 경로 추가 (0)	2019.08.15
[HADOOP] Hadoop 네임 노드 메모리 사용량에 대한 혼란 (0)	2019.08.15

복붙노트 개발을 배울 때 처음부터 이해하고 코드를 쓰는 것은 무척 어렵습니다. 우선 Copy & Paste ( 복사 붙여넣기. : 복붙) 해 보시고, 어떻게 작동하는지 확인하세요. 가장 실력이 빠르게 느는 방법은 "직접 해보는 것" 입니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] hadoop Map reduce를 사용하여 .pst를 처리 / 추출하는 방법

hadoop Map reduce를 사용하여 .pst를 처리 / 추출하는 방법

해결법

1.Behemoth (http://digitalpebble.blogspot.com/2011/05/processing-enron-dataset-using-behemoth.html)를 살펴보십시오. Tika와 Hadoop을 결합합니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역