[HADOOP] Spark 데이터 프레임을 Pandas / R 데이터 프레임으로 변환하기위한 요구 사항

2019. 5. 28. 00:03

cnpnote

HADOOP

Spark 데이터 프레임을 Pandas / R 데이터 프레임으로 변환하기위한 요구 사항

나는 Hadoop의 YARN에서 Spark를 실행 중입니다. 이 변환은 어떻게 작동합니까? 전환하기 전에 collect ()가 발생합니까?

또한 변환을 위해 모든 슬레이브 노드에 Python과 R을 설치해야합니까? 나는 이것에 대한 문서를 찾기 위해 고심하고있다.

해결법

==============================
1.toPandas (PySpark) / as.data.frame (SparkR)

toPandas (PySpark) / as.data.frame (SparkR)

로컬 데이터 프레임을 만들기 전에 데이터를 수집해야합니다. 예를 들어 toPandas 메소드는 다음과 같습니다.
```
def toPandas(self):
    import pandas as pd
    return pd.DataFrame.from_records(self.collect(), columns=self.columns)
```
각 노드에 설치된 모든 종속성과 함께 최적으로 Python이 필요합니다.

SparkR 카운터 파트 (as.data.frame)는 단순히 collect의 별칭입니다.

요약하면, 데이터는 드라이버 노드에 수집되어 로컬 데이터 구조 (Python 및 R에서는 각각 pandas.DataFrame 및 base :: data.frame)로 변환됩니다.

벡터화 된 사용자 정의 함수

Spark 2.3.0부터 PySpark는 또한 다음과 같이 정의 된 데이터 덩어리에서 병렬로 작동하는 pandas_udf (SCALAR, GROUPED_MAP, GROUPED_AGG) 세트를 제공합니다.

각 청크는

마찬가지로, Spark 2.0.0부터 SparkR은 파티션 및 그룹화 표현식으로 각각 정의 된 data.frames에서 작동하는 dapply 및 gapply 기능을 제공합니다.

앞서 언급 한 기능들 :

from https://stackoverflow.com/questions/30983197/requirements-for-converting-spark-dataframe-to-pandas-r-dataframe by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] 기술적으로 s3n, s3a 및 s3의 차이점은 무엇입니까? (0)	2019.05.28
[HADOOP] Hive에서 테이블 분할 및 버킷 팅의 차이점은 무엇입니까? (0)	2019.05.28
[HADOOP] Spark에서 압축 된 전체 텍스트 파일 읽기 (0)	2019.05.27
[HADOOP] 간단한 자바 프로그램에서 mapreduce 작업 불러 오기 (0)	2019.05.27
[HADOOP] 하이브 내부 테이블과 외부 테이블의 차이점은 무엇입니까? (0)	2019.05.27

,

티스토리툴바