pyspark에서 hdfs 블록 크기를 변경하는 방법은 무엇입니까?

저는 나무 마루 파일을 작성하기 위해 pySpark를 사용합니다. 해당 파일의 hdfs 블록 크기를 변경하고 싶습니다. 이렇게 블록 크기를 설정하고 작동하지 않습니다.

sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")

pySpark 작업을 시작하기 전에이를 설정해야합니까? 그렇다면 그것을하는 방법.

해결법

==============================

1.SparkContext를 사용하여 sc._jsc.hadoopConfiguration ()을 통해 설정해보십시오.

SparkContext를 사용하여 sc._jsc.hadoopConfiguration ()을 통해 설정해보십시오.

from pyspark import SparkConf, SparkContext 
conf = (SparkConf().setMaster("yarn")) 
sc = SparkContext(conf = conf)
sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m")
txt = sc.parallelize(("Hello", "world", "!"))
txt.saveAsTextFile("hdfs/output/path") #saving output with 128MB block size

스칼라에서 :

sc.hadoopConfiguration.set("dfs.block.size", "128m")

==============================
2.비슷한 문제가 있었지만 문제점을 파악했습니다. "128m"이 아닌 번호가 필요합니다. 그러므로 이것은 작동해야합니다 (적어도 나를 위해 일했습니다!) :

비슷한 문제가 있었지만 문제점을 파악했습니다. "128m"이 아닌 번호가 필요합니다. 그러므로 이것은 작동해야합니다 (적어도 나를 위해 일했습니다!) :
```
block_size = str(1024 * 1024 * 128)
sc._jsc.hadoopConfiguration().set("dfs.block.size", block_size)
```

from https://stackoverflow.com/questions/40954825/how-to-change-hdfs-block-size-in-pyspark by cc-by-sa and MIT license

'HADOOP' 카테고리의 다른 글

[HADOOP] Hadoop WordCount 예제 - Hadoop (Eclipse) 옵션 실행시 프롬프트가 나타나지 않습니다. 창에서 실행할 Hadoop 서버 선택 (0)	2019.08.02
[HADOOP] 버킷으로 연결된 테이블의 전체 데이터를 검색하는 하이브 (0)	2019.08.02
[HADOOP] RJDBC / RHive를 사용하여 R에서 원격 하이브 서버에 연결 (0)	2019.08.02
[HADOOP] 데이터 소스로 HBase를 사용하여 문서의 TF-IDF를 계산합니다. (0)	2019.08.02
[HADOOP] pyspark에서 그들을 수집 할 때 왜`binaryFiles` 파일이 비어 있습니까? (0)	2019.08.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

복붙노트

[HADOOP] pyspark에서 hdfs 블록 크기를 변경하는 방법은 무엇입니까?

pyspark에서 hdfs 블록 크기를 변경하는 방법은 무엇입니까?

해결법

1.SparkContext를 사용하여 sc._jsc.hadoopConfiguration ()을 통해 설정해보십시오.

2.비슷한 문제가 있었지만 문제점을 파악했습니다. "128m"이 아닌 번호가 필요합니다. 그러므로 이것은 작동해야합니다 (적어도 나를 위해 일했습니다!) :

'HADOOP' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역