Dataframe.toPandas는 항상 드라이버 노드 또는 작업자 노드에 있습니까?

SparkContext 및 Hive에서 큰 데이터 세트를로드한다고 가정하십시오. 따라서이 데이터 세트는 Spark 클러스터에 배포됩니다. 예를 들어 수천 개의 변수에 대한 관측치 (값 + 타임 스탬프).

이제 일부 map / reduce 메소드 또는 집계를 사용하여 데이터를 구성 / 분석합니다. 예를 들어 변수 이름별로 그룹화합니다.

일단 그룹화되면 각 변수에 대한 모든 관측치 (값)를 시계열 데이터 프레임으로 얻을 수 있습니다. DataFrame.toPandas를 사용하지 않는 경우

def myFunction(data_frame):
   data_frame.toPandas()

df = sc.load....
df.groupBy('var_name').mapValues(_.toDF).map(myFunction)

해결법

==============================
1.이 문맥에서 Pandas DataFrame에 대해서는 특별한 것이 없습니다.

이 문맥에서 Pandas DataFrame에 대해서는 특별한 것이 없습니다.

[HADOOP] cron에 의해 호출 될 때 하둡 작업이 실패 함 (0)	2019.09.15
[HADOOP] Hadoop 3 : 삭제 코딩을 구성 / 활성화하는 방법은 무엇입니까? (0)	2019.09.15
[HADOOP] hadoop-streaming.jar는 각 줄의 끝에 x'09 '를 추가합니다 (0)	2019.09.15
[HADOOP] 기본 키로 하이브 테이블을 만들 수 없습니다 (0)	2019.09.15
[HADOOP] 복잡한 편집을 구현하는 방법은 무엇입니까? (0)	2019.09.15