[HADOOP] Spark에서 여러 줄 요소를 읽는 방법?
HADOOPSpark에서 여러 줄 요소를 읽는 방법?
sc.textfile을 사용하여 Spark에서 파일을 읽으면 각 요소가 별도의 줄인 요소를 제공합니다. 그러나 각 요소를 N 개의 행으로 구성해야합니다. 그 파일에 아무 것도 없기 때문에 구분 기호를 사용할 수 없습니다. 그래서, 어떻게하면 여러개의 라인 요소를 만들어 줄 수 있습니까?
그리고 NLineInputFormat 클래스를 사용하는 것에 관심이 있습니다. 스파크에서 그렇게 할 수 있습니까? MapReduce에 대한 예를 볼 수는 있지만 Spark에서 어떻게 변환되는지 전혀 알지 못합니다.
해결법
-
==============================
1.예, 당신이 hadoop에서 파일을 가져 오는 경우. 당신은 이렇게 할 수 있어야합니다 :
예, 당신이 hadoop에서 파일을 가져 오는 경우. 당신은 이렇게 할 수 있어야합니다 :
val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])
다음은 API 문서입니다.
from https://stackoverflow.com/questions/36052480/how-to-read-multiple-line-elements-in-spark by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] 파티션으로 외부 생성 (0) | 2019.06.28 |
---|---|
[HADOOP] 다른 돼지 스크립트에서 돼지 라틴어 스크립트 호출 (0) | 2019.06.28 |
[HADOOP] Hadoop UI에는 하나의 데이터 노드 만 표시됩니다. (0) | 2019.06.28 |
[HADOOP] 하이브 테이블에 키 값 쌍을로드하는 방법은 무엇입니까? (0) | 2019.06.28 |
[HADOOP] Base64 데이터의 스트림 디코딩 (0) | 2019.06.28 |