[HADOOP] RDD 파티션과 슬라이스의 차이점은 무엇입니까?
HADOOPRDD 파티션과 슬라이스의 차이점은 무엇입니까?
Spark Programming Guide에는 슬라이스가 RDD (병렬 수집 또는 Hadoop 데이터 세트 모두)의 기능으로 언급되어 있습니다 ( "Spark는 클러스터의 각 슬라이스에 대해 하나의 작업을 실행합니다.")하지만 RDD 지속성에 대한 섹션에서는 파티션 개념이 사용됩니다 소개없이. 또한 RDD 문서에서는 슬라이스에 대한 언급이없는 파티션 만 언급하고 SparkContext 문서에서는 RDD를 만드는 슬라이스를 언급하지만 RDD에서 작업을 실행하기위한 파티션을 언급합니다. 이 두 개념이 같은가요? 그렇지 않다면 어떻게 다릅니 까?
조정 - 병렬 수준은 "스파크가 각 파일의 크기에 따라 실행되는"맵 "작업의 수를 자동으로 설정하고 groupByKey 및 reduceByKey와 같은 분산"축소 "작업의 경우 가장 큰 상위 RDD를 사용함을 나타냅니다 파티션 수. 병렬 처리 수준을 두 번째 인수로 전달할 수 있습니다 .... "이렇게 파티션과 슬라이스의 차이점을 설명 할 수 있습니까? 파티션은 RDD 스토리지와 관련이 있으며 슬라이스는 병렬 처리 수준과 관련이 있으며 기본적으로 데이터 크기 또는 파티션 수를 기준으로 스플 라이스가 계산됩니까?
해결법
-
==============================
1.그것들은 같은 것이다. 매튜 파렐리 (Matthew Farrellee) 덕분에 문서가 Spark 1.2 용으로 수정되었습니다. 버그에 대한 자세한 내용 : https://issues.apache.org/jira/browse/SPARK-1701
그것들은 같은 것이다. 매튜 파렐리 (Matthew Farrellee) 덕분에 문서가 Spark 1.2 용으로 수정되었습니다. 버그에 대한 자세한 내용 : https://issues.apache.org/jira/browse/SPARK-1701
from https://stackoverflow.com/questions/23436640/what-is-the-difference-between-an-rdd-partition-and-a-slice by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] oozie가 종속성을 처리하는 방법은 무엇입니까? (0) | 2019.07.25 |
---|---|
[HADOOP] 하둡이없는 쪽모이도? (0) | 2019.07.25 |
[HADOOP] 하이브에서 상위 2 행 선택 (0) | 2019.07.25 |
[HADOOP] JDBC API를 사용하여 하이브 종료 상태 또는 오류 코드를 캡처하는 방법 (0) | 2019.07.24 |
[HADOOP] Elephantbird에서는 HDFS에서 데이터로드가 작동하지 않습니다. (0) | 2019.07.24 |