[HADOOP] 커스텀 InputFormat으로 WARC 파일 읽기
HADOOP커스텀 InputFormat으로 WARC 파일 읽기
Spark를 통해 .warc 파일을 처리해야하지만 그렇게하는 간단한 방법을 찾을 수없는 것 같습니다. 파이썬을 사용하고 wholeTextFiles ()를 통해 전체 파일을 RDD로 읽는 것을 선호합니다 (전체 파일이 단일 노드에서 처리되기 때문에 (?)) 따라서 유일한 / 가장 좋은 방법은 사용자 정의 하둡을 사용하는 것 같습니다 Python에서 .hadoopFile ()과 함께 사용되는 InputFormat.
그러나, 나는 이것을하는 쉬운 방법을 찾을 수 없었다. .warc 파일을 항목으로 분할하는 것은 \ n \ n \ n에서 분할하는 것만 큼 간단합니다. 그래서 어떻게하면 다양한 "튜토리얼"온라인에서 보여지는 것처럼 엄청난 양의 쓸데없는 코드를 작성하지 않고도 이것을 얻을 수 있습니까? 파이썬으로 모두 할 수 있습니까?
즉, wholeTextFiles로 전체 내용을 읽지 않고 warc 파일을 항목으로 분할하는 방법은 무엇입니까?
해결법
-
==============================
1.구분 기호가 \ n \ n \ n이면 textinputformat.record.delimiter를 사용할 수 있습니다.
구분 기호가 \ n \ n \ n이면 textinputformat.record.delimiter를 사용할 수 있습니다.
sc.newAPIHadoopFile( path , 'org.apache.hadoop.mapreduce.lib.input.TextInputFormat', 'org.apache.hadoop.io.LongWritable', 'org.apache.hadoop.io.Text', conf={'textinputformat.record.delimiter': '\n\n\n'} )
from https://stackoverflow.com/questions/40586177/spark-reading-warc-file-with-custom-inputformat by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 특정 주어진 파일을 HDFS에 저장하기 위해 명시 적으로 datanode를 정의하는 방법은 무엇입니까? (0) | 2019.06.29 |
---|---|
[HADOOP] 파일에서 직접 마루 테이블을로드 할 수 있습니까? (0) | 2019.06.29 |
[HADOOP] Hadoop : start-dfs.sh 연결이 거부되었습니다. (0) | 2019.06.29 |
[HADOOP] 스레드 "main"의 예외 org.apache.hadoop.ipc.RemoteException : 서버 IPC 버전 9가 클라이언트 버전 4와 통신 할 수 없습니다. 어떻게 해결합니까? (0) | 2019.06.29 |
[HADOOP] HDFS 디렉토리의 파일을 열거하는 방법 (0) | 2019.06.29 |