Spark의 Hive 2.1.1-사용해야하는 Spark 버전

우분투 16.04에서 하이브 2.1.1, hadoop 2.7.3을 실행 중입니다.

Hive on Spark : Getting Started에 따르면

pom.xml을 확인했는데 spark 버전이 1.6.0임을 보여줍니다.

<spark.version>1.6.0</spark.version>

그러나 Hive on Spark : Getting Started는 또한

그래서 나는 hadoop 2.7.3을 실행하고 있기 때문에 혼란스러워합니다. 하둡을 2.4로 다운 그레이드해야합니까?

어떤 버전의 Spark를 사용해야합니까? 1.6.0 또는 2.0.0?

고맙습니다!

해결법

==============================
1.현재 hadoop 2.7.3 및 hive 2.1과 함께 spark 2.0.2를 사용하고 있으며 정상적으로 작동합니다. 그리고 hive가 spark 1.6.x 및 2.x 버전을 모두 지원한다고 생각하지만 최신 버전이므로 spark 2.x를 사용하는 것이 좋습니다.

현재 hadoop 2.7.3 및 hive 2.1과 함께 spark 2.0.2를 사용하고 있으며 정상적으로 작동합니다. 그리고 hive가 spark 1.6.x 및 2.x 버전을 모두 지원한다고 생각하지만 최신 버전이므로 spark 2.x를 사용하는 것이 좋습니다.

spark 2.x를 사용해야하는 동기 부여 링크 https://docs.cloud.databricks.com/docs/latest/sample_applications/04%20Apache%20Spark%202.0%20Examples/03%20Performance%20Apache%20(Spark%202.0%20vs%201.6).html

Apache Spark와 Apache Spark 2
==============================
2.Spark 2.X의 현재 버전은 Hive 2.1 및 Hadoop 2.7과 호환되지 않으며 주요 버그가 있습니다.

Spark 2.X의 현재 버전은 Hive 2.1 및 Hadoop 2.7과 호환되지 않으며 주요 버그가 있습니다.

JavaSparkListener를 사용할 수 없으며 실행시 Hive가 충돌합니다

https://issues.apache.org/jira/browse/SPARK-17563

다음을 사용하여 Hadoop 2.7 및 Spark 1.6으로 Hive 2.1을 빌드 할 수 있습니다.
```
./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.7,parquet-provided" 
```
2.0 이후의 명령을 살펴보면 차이점은 ./make-distribution이 / dev 폴더 안에 있다는 것입니다.

hadoop 2.7.X에서 작동하지 않으면 다음을 사용하여 Hadoop 2.6으로 성공적으로 빌드했음을 확인할 수 있습니다.
```
./make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,hadoop-2.6,parquet-provided" 
```
스칼라 2.10.5

from https://stackoverflow.com/questions/42281174/hive-2-1-1-on-spark-which-version-of-spark-should-i-use by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] jooq는 기존의 방언을 확장합니다. Hive 방언을 아파치하기 위해 MySQL 방언 채택 (0)	2019.09.08
[HADOOP] Spark (Scala) 드라이버에서 로컬 파일 시스템으로 쓰기 및 읽기 (0)	2019.09.08
[HADOOP] Zip 입력 파일을 사용한 하둡 스트리밍 (0)	2019.09.08
[HADOOP] 돼지 참조 (0)	2019.09.08
[HADOOP] 하둡 : 슬레이브 노드가 시작되지 않습니다 (0)	2019.09.08

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] Spark의 Hive 2.1.1-사용해야하는 Spark 버전

Spark의 Hive 2.1.1-사용해야하는 Spark 버전

해결법

1.현재 hadoop 2.7.3 및 hive 2.1과 함께 spark 2.0.2를 사용하고 있으며 정상적으로 작동합니다. 그리고 hive가 spark 1.6.x 및 2.x 버전을 모두 지원한다고 생각하지만 최신 버전이므로 spark 2.x를 사용하는 것이 좋습니다.

2.Spark 2.X의 현재 버전은 Hive 2.1 및 Hadoop 2.7과 호환되지 않으며 주요 버그가 있습니다.

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역