복붙노트

[SCALA] 스칼라 API와 불꽃 Dataframe에 TSV 읽기

SCALA

스칼라 API와 불꽃 Dataframe에 TSV 읽기

나는 일에 CSV를 읽기 위해 databricks 라이브러리를 얻으려고 노력하고있다. 나는 스칼라 API를 사용하여 스파크 데이터 프레임에 하이브에 의해 생성 된 TSV를 읽으려고하고있다.

다음은 스파크 쉘에서 실행할 수있는 예입니다 (당신을 위해 일할 수 있도록 내가 샘플 데이터 공개)

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

val sqlContext = new SQLContext(sc)
val segments = sqlContext.read.format("com.databricks.spark.csv").load("s3n://michaeldiscenza/data/test_segments")

문서는 구분 기호를 지정할 수 있지만 해당 옵션을 지정하는 방법에 대한 불분명 오전 말한다.

해결법

  1. ==============================

    1.옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :

    옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :

    val segments = sqlContext.read.format("com.databricks.spark.csv")
        .option("delimiter", "\t")
        .load("s3n://michaeldiscenza/data/test_segments")
    
  2. ==============================

    2.스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :

    스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :

    val spark = SparkSession.builder.getOrCreate()
    val segments = spark.read.option("sep", "\t").csv("/path/to/file")
    
  3. from https://stackoverflow.com/questions/33898040/reading-tsv-into-spark-dataframe-with-scala-api by cc-by-sa and MIT license