[HADOOP] 섭취 된 데이터의 유효성을 검사하는 방법을 가장 좋은 방법은
HADOOP섭취 된 데이터의 유효성을 검사하는 방법을 가장 좋은 방법은
나는 등 GA, 스크레이퍼, 구글 BQ, 같은 다양한 외부 소스에서 데이터를 매일 섭취하고 나는 CSV는 HDFS에 파일을 그것에서 단계 테이블을 만든 다음 하둡 역사적 테이블에 추가 생성 저장합니다. 당신은 어떻게 기록 하나 새로운 데이터를 valide하는 몇 가지 모범 사례를 공유 할 수 있습니까? 예를 들어처럼 그런 지난 10 일의 평균 또는가 someting와 실제 데이터의 행 수를 비교합니다. 스파크 뭔가 어떤 준비 솔루션이 있습니까?
충고에 감사하다.
해결법
from https://stackoverflow.com/questions/52895881/best-way-ho-to-validate-ingested-data by cc-by-sa and MIT license
'HADOOP' 카테고리의 다른 글
[HADOOP] java.io.FileNotFoundException는 : 파일이 존재하지 않습니다 HDFS : // localhost를 : 9000 / 집 / hduser / Sqoop을 / lib 디렉토리 / HSQLDB-1.8.0.10.jar (0) | 2019.10.09 |
---|---|
[HADOOP] HBase를 쿼리와 하이브 (0) | 2019.10.09 |
[HADOOP] 하이브를 시작하지 못했습니다 (0) | 2019.10.09 |
[HADOOP] 하이브 동적 분할을 지원 Sqoop을합니까? (0) | 2019.10.09 |
[HADOOP] 하둡 단어 개수 : 문자 "C"로 시작하는 단어의 수를받을 (0) | 2019.10.09 |