[HADOOP] Dataframe.toPandas는 항상 드라이버 노드 또는 작업자 노드에 있습니까?
HADOOPDataframe.toPandas는 항상 드라이버 노드 또는 작업자 노드에 있습니까?
SparkContext 및 Hive에서 큰 데이터 세트를로드한다고 가정하십시오. 따라서이 데이터 세트는 Spark 클러스터에 배포됩니다. 예를 들어 수천 개의 변수에 대한 관측치 (값 + 타임 스탬프).
이제 일부 map / reduce 메소드 또는 집계를 사용하여 데이터를 구성 / 분석합니다. 예를 들어 변수 이름별로 그룹화합니다.
일단 그룹화되면 각 변수에 대한 모든 관측치 (값)를 시계열 데이터 프레임으로 얻을 수 있습니다. DataFrame.toPandas를 사용하지 않는 경우
def myFunction(data_frame):
data_frame.toPandas()
df = sc.load....
df.groupBy('var_name').mapValues(_.toDF).map(myFunction)
해결법
-
==============================
1.이 문맥에서 Pandas DataFrame에 대해서는 특별한 것이 없습니다.
이 문맥에서 Pandas DataFrame에 대해서는 특별한 것이 없습니다.
from https://stackoverflow.com/questions/39142549/is-dataframe-topandas-always-on-driver-node-or-on-worker-nodes by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] cron에 의해 호출 될 때 하둡 작업이 실패 함 (0) | 2019.09.15 |
---|---|
[HADOOP] Hadoop 3 : 삭제 코딩을 구성 / 활성화하는 방법은 무엇입니까? (0) | 2019.09.15 |
[HADOOP] hadoop-streaming.jar는 각 줄의 끝에 x'09 '를 추가합니다 (0) | 2019.09.15 |
[HADOOP] 기본 키로 하이브 테이블을 만들 수 없습니다 (0) | 2019.09.15 |
[HADOOP] 복잡한 편집을 구현하는 방법은 무엇입니까? (0) | 2019.09.15 |