Spark에서 RDD 비싼 작업의 기록을 세고 있습니까?

Hadoop에서 입력 형식 판독기를 사용할 때 작업 수준의 로그는 읽은 레코드 수를보고하고 바이트 수 등도 표시합니다.

Spark에서는 동일한 입력 형식 판독기를 사용할 때 해당 메트릭 중 아무 것도 얻지 못합니다.

그래서 나는 입력 형식 판독기를 사용하여 rdd를 채우고 rdd (rdd 크기)의 레코드 수를 게시한다고 생각합니다.

나는 rdd.count ()가 rdd의 크기를 반환한다는 것을 알고있다.

그러나 count ()를 사용하는 데 드는 비용은 분명하지 않습니다. 예 :

해결법

[HADOOP] hdfs : // URI를 사용할 때 NameNode HA (0)	2019.07.21
[HADOOP] Java JDBC를 통해 하이브 연결 (0)	2019.07.21
[HADOOP] Hadoop Java 오류 : "main"스레드의 예외 java.lang.NoClassDefFoundError : WordCount (잘못된 이름 : org / myorg / WordCount) (0)	2019.07.21
[HADOOP] 스파크 스트리밍 : 마이크로 배치 병렬 실행 (0)	2019.07.21
[HADOOP] '파일을 해결하는 방법은 hadoop에서 1 대신'0 노드에만 복제 할 수 있습니까? ' (0)	2019.07.21

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`