복붙노트

[HADOOP] DataFrame 개체는 데이터를 표시하지 않습니다

HADOOP

DataFrame 개체는 데이터를 표시하지 않습니다

나는이 튜토리얼에서와 같이 HDFS 파일을 사용하여 스파크 CSV lib 디렉토리에 dataframe 개체를 만들려고했다.

내가 DataFrame 객체의 수를 얻을하려고 할 때, 그것은 0으로 표시되어

여기 내 파일의 모습처럼,

employee.csv :

empid,empname
1000,Tom
2000,Jerry

나는 사용하여 위 파일을로드,

val empDf = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimiter",",").load("hdfs:///user/.../employee.csv");

내가 좋아하는 조회 때, empDf object.printSchema ()는 문자열 필드로 적절한 EMPID와 스키마, empname을주고있다 그리고 난 그 구분이 제대로 읽은 볼 수 있었다.

그러나 내가 사용 dataFrame를 표시하려고 할 때, 만 열 헤더를 가지지 않고 데이터를주고 내가 할 때 empDf.count 0 기록을 제공 empDf.show.

내가 매우 여기에 요구되는 할 수있는 뭔가를 놓친 경우에 저를 수정하십시오.

해결법

  1. ==============================

    1.스파크-CSV 버전과 스파크 분포가 내장되어있는 스칼라 버전이 동일한 지 확인하십시오.

    스파크-CSV 버전과 스파크 분포가 내장되어있는 스칼라 버전이 동일한 지 확인하십시오.

    당신의 불꽃 배포판은 스칼라 2.10 (Databricks 미리 만들어진 점화 배포판의 기본 스칼라 버전)에 내장되어있는 경우 예를 들어, 당신은 스파크 csv_2.10가 필요합니다 - (언급 된 튜토리얼 참조) 버전 스파크 csv_2.11 작동하지 않습니다, 만 열 이름을 가진 빈 dataframe를 반환합니다 - 유사한 경우에이 SO 질문에 대한 내 대답을 참조하십시오.

  2. from https://stackoverflow.com/questions/38846422/dataframe-object-is-not-showing-any-data by cc-by-sa and MIT license