스칼라 API와 불꽃 Dataframe에 TSV 읽기

나는 일에 CSV를 읽기 위해 databricks 라이브러리를 얻으려고 노력하고있다. 나는 스칼라 API를 사용하여 스파크 데이터 프레임에 하이브에 의해 생성 된 TSV를 읽으려고하고있다.

다음은 스파크 쉘에서 실행할 수있는 예입니다 (당신을 위해 일할 수 있도록 내가 샘플 데이터 공개)

import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType};

val sqlContext = new SQLContext(sc)
val segments = sqlContext.read.format("com.databricks.spark.csv").load("s3n://michaeldiscenza/data/test_segments")

문서는 구분 기호를 지정할 수 있지만 해당 옵션을 지정하는 방법에 대한 불분명 오전 말한다.

해결법

==============================
1.옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :

옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :
```
val segments = sqlContext.read.format("com.databricks.spark.csv")
    .option("delimiter", "\t")
    .load("s3n://michaeldiscenza/data/test_segments")
```
==============================
2.스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :

스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :
```
val spark = SparkSession.builder.getOrCreate()
val segments = spark.read.option("sep", "\t").csv("/path/to/file")
```

from https://stackoverflow.com/questions/33898040/reading-tsv-into-spark-dataframe-with-scala-api by cc-by-sa and MIT license

'SCALA' 카테고리의 다른 글

[SCALA] 어떻게 스파크 많은 파티션으로 마루 파일을 분할하려면? (0)	2019.11.23
[SCALA] 스칼라 : 릴리스 간 바이너리 호환성 (0)	2019.11.23
[SCALA] java.util.concurrent.Future에 대한 scala.concurrent.Future 래퍼 (0)	2019.11.22
[SCALA] scalac 컴파일 수익률은 "개체의 아파치 패키지 조직의 구성원이 아닌" (0)	2019.11.22
[SCALA] 어떻게 \| 패턴 매칭 작품 (파이프)? (0)	2019.11.22

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[SCALA] 스칼라 API와 불꽃 Dataframe에 TSV 읽기

스칼라 API와 불꽃 Dataframe에 TSV 읽기

해결법

1.옵션의 모든 매개 변수는 다음과 같은 옵션 () 함수에 전달됩니다 :

2.스파크가 사용하는 2.0 이상으로 내장 된 CSV 커넥터은 타사 의존성과 더 나은 성능을 피하기 위해 :

'SCALA' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역