[SCALA] 스칼라 API와 불꽃 Dataframe에 TSV 읽기
SCALA스칼라 API와 불꽃 Dataframe에 TSV 읽기
나는 일에 CSV를 읽기 위해 databricks 라이브러리를 얻으려고 노력하고있다. 나는 스칼라 API를 사용하여 스파크 데이터 프레임에 하이브에 의해 생성 된 TSV를 읽으려고하고있다.
다음은 스파크 쉘에서 실행할 수있는 예입니다 (당신을 위해 일할 수 있도록 내가 샘플 데이터 공개)
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};
val sqlContext = new SQLContext(sc)
val segments = sqlContext.read.format("com.databricks.spark.csv").load("s3n://michaeldiscenza/data/test_segments")
문서는 구분 기호를 지정할 수 있지만 해당 옵션을 지정하는 방법에 대한 불분명 오전 말한다.
해결법
-
==============================
1.옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :
옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :
val segments = sqlContext.read.format("com.databricks.spark.csv") .option("delimiter", "\t") .load("s3n://michaeldiscenza/data/test_segments")
-
==============================
2.스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :
스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :
val spark = SparkSession.builder.getOrCreate() val segments = spark.read.option("sep", "\t").csv("/path/to/file")
from https://stackoverflow.com/questions/33898040/reading-tsv-into-spark-dataframe-with-scala-api by cc-by-sa and MIT license
'SCALA' 카테고리의 다른 글
[SCALA] 어떻게 스파크 많은 파티션으로 마루 파일을 분할하려면? (0) | 2019.11.23 |
---|---|
[SCALA] 스칼라 : 릴리스 간 바이너리 호환성 (0) | 2019.11.23 |
[SCALA] java.util.concurrent.Future에 대한 scala.concurrent.Future 래퍼 (0) | 2019.11.22 |
[SCALA] scalac 컴파일 수익률은 "개체의 아파치 패키지 조직의 구성원이 아닌" (0) | 2019.11.22 |
[SCALA] 어떻게 | 패턴 매칭 작품 (파이프)? (0) | 2019.11.22 |