[HADOOP] DataFrame 개체는 데이터를 표시하지 않습니다
HADOOPDataFrame 개체는 데이터를 표시하지 않습니다
나는이 튜토리얼에서와 같이 HDFS 파일을 사용하여 스파크 CSV lib 디렉토리에 dataframe 개체를 만들려고했다.
내가 DataFrame 객체의 수를 얻을하려고 할 때, 그것은 0으로 표시되어
여기 내 파일의 모습처럼,
employee.csv :
empid,empname
1000,Tom
2000,Jerry
나는 사용하여 위 파일을로드,
val empDf = sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("delimiter",",").load("hdfs:///user/.../employee.csv");
내가 좋아하는 조회 때, empDf object.printSchema ()는 문자열 필드로 적절한 EMPID와 스키마, empname을주고있다 그리고 난 그 구분이 제대로 읽은 볼 수 있었다.
그러나 내가 사용 dataFrame를 표시하려고 할 때, 만 열 헤더를 가지지 않고 데이터를주고 내가 할 때 empDf.count 0 기록을 제공 empDf.show.
내가 매우 여기에 요구되는 할 수있는 뭔가를 놓친 경우에 저를 수정하십시오.
해결법
-
==============================
1.스파크-CSV 버전과 스파크 분포가 내장되어있는 스칼라 버전이 동일한 지 확인하십시오.
스파크-CSV 버전과 스파크 분포가 내장되어있는 스칼라 버전이 동일한 지 확인하십시오.
당신의 불꽃 배포판은 스칼라 2.10 (Databricks 미리 만들어진 점화 배포판의 기본 스칼라 버전)에 내장되어있는 경우 예를 들어, 당신은 스파크 csv_2.10가 필요합니다 - (언급 된 튜토리얼 참조) 버전 스파크 csv_2.11 작동하지 않습니다, 만 열 이름을 가진 빈 dataframe를 반환합니다 - 유사한 경우에이 SO 질문에 대한 내 대답을 참조하십시오.
from https://stackoverflow.com/questions/38846422/dataframe-object-is-not-showing-any-data by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] ERROR : 프로토콜 "gphdfs"존재하지 않는 (0) | 2019.10.20 |
---|---|
[HADOOP] HBase를, zookeeper.MetaTableLocator 소개 : HBase를의 실패 검증 : 메타, .NotServingRegionException (0) | 2019.10.20 |
[HADOOP] executeSQL에서 SelectHiveQL 아파치 NiFi에 동적으로 값을 전달하는 방법 (0) | 2019.10.20 |
[HADOOP] Sqoop2 서버를 시작 하둡 구성 클래스를 찾을 수 없습니다 (1.99.7) (0) | 2019.10.20 |
[HADOOP] 일식을 통합하고 2.6 하둡하는 방법 (0) | 2019.10.20 |