복붙노트

[HADOOP] Spark에서 여러 줄 요소를 읽는 방법?

HADOOP

Spark에서 여러 줄 요소를 읽는 방법?

sc.textfile을 사용하여 Spark에서 파일을 읽으면 각 요소가 별도의 줄인 요소를 제공합니다. 그러나 각 요소를 N 개의 행으로 구성해야합니다. 그 파일에 아무 것도 없기 때문에 구분 기호를 사용할 수 없습니다. 그래서, 어떻게하면 여러개의 라인 요소를 만들어 줄 수 있습니까?

그리고 NLineInputFormat 클래스를 사용하는 것에 관심이 있습니다. 스파크에서 그렇게 할 수 있습니까? MapReduce에 대한 예를 볼 수는 있지만 Spark에서 어떻게 변환되는지 전혀 알지 못합니다.

해결법

  1. ==============================

    1.예, 당신이 hadoop에서 파일을 가져 오는 경우. 당신은 이렇게 할 수 있어야합니다 :

    예, 당신이 hadoop에서 파일을 가져 오는 경우. 당신은 이렇게 할 수 있어야합니다 :

    val records = sc.newAPIHadoopRDD(hadoopConf,classOf[NLineInputFormat],classOf[LongWritable],classOf[Text])
    

    다음은 API 문서입니다.

  2. from https://stackoverflow.com/questions/36052480/how-to-read-multiple-line-elements-in-spark by cc-by-sa and MIT license