복붙노트

[SCALA] DataFrame 대 2.0 데이터 집합 불꽃

SCALA

DataFrame 대 2.0 데이터 집합 불꽃

스파크 2.0.1 함께 시작 나는 몇 가지 질문을 얻었다. 나는 많은 문서를 읽을 수는 있지만 지금까지 충분한 해답을 찾을 수 없습니다 :

해결법

  1. ==============================

    1.개인적으로, 나는 정적으로 가장 유용 할 데이터 집합을 입력 찾기 :

    개인적으로, 나는 정적으로 가장 유용 할 데이터 집합을 입력 찾기 :

    관련 질문 :

  2. ==============================

    2.Dataframe 스파크보다 스파크 데이터 집합이 방법이 더 강력하다. 작은 예 - 당신은 단지 행, 튜플 또는 원시 데이터 형식의 Dataframe을 만들 수 있지만 데이터 세트는 당신에게 너무 비 원시적 형태의 데이터 집합을 만들 수있는 능력을 제공합니다. 즉, 당신은 말 그대로 객체 유형의 데이터 세트를 생성 할 수 있습니다.

    Dataframe 스파크보다 스파크 데이터 집합이 방법이 더 강력하다. 작은 예 - 당신은 단지 행, 튜플 또는 원시 데이터 형식의 Dataframe을 만들 수 있지만 데이터 세트는 당신에게 너무 비 원시적 형태의 데이터 집합을 만들 수있는 능력을 제공합니다. 즉, 당신은 말 그대로 객체 유형의 데이터 세트를 생성 할 수 있습니다.

    전의:

    case class Employee(id:Int,name:String)
    
    Dataset[Employee]   // is valid
    Dataframe[Employee] // is invalid
    
  3. from https://stackoverflow.com/questions/40596638/spark-2-0-dataset-vs-dataframe by cc-by-sa and MIT license