복붙노트

[HADOOP] Dataframe.toPandas는 항상 드라이버 노드 또는 작업자 노드에 있습니까?

HADOOP

Dataframe.toPandas는 항상 드라이버 노드 또는 작업자 노드에 있습니까?

SparkContext 및 Hive에서 큰 데이터 세트를로드한다고 가정하십시오. 따라서이 데이터 세트는 Spark 클러스터에 배포됩니다. 예를 들어 수천 개의 변수에 대한 관측치 (값 + 타임 스탬프).

이제 일부 map / reduce 메소드 또는 집계를 사용하여 데이터를 구성 / 분석합니다. 예를 들어 변수 이름별로 그룹화합니다.

일단 그룹화되면 각 변수에 대한 모든 관측치 (값)를 시계열 데이터 프레임으로 얻을 수 있습니다. DataFrame.toPandas를 사용하지 않는 경우

def myFunction(data_frame):
   data_frame.toPandas()

df = sc.load....
df.groupBy('var_name').mapValues(_.toDF).map(myFunction)

해결법

  1. ==============================

    1.이 문맥에서 Pandas DataFrame에 대해서는 특별한 것이 없습니다.

    이 문맥에서 Pandas DataFrame에 대해서는 특별한 것이 없습니다.

  2. from https://stackoverflow.com/questions/39142549/is-dataframe-topandas-always-on-driver-node-or-on-worker-nodes by cc-by-sa and MIT license