복붙노트

[HADOOP] 섭취 된 데이터의 유효성을 검사하는 방법을 가장 좋은 방법은

HADOOP

섭취 된 데이터의 유효성을 검사하는 방법을 가장 좋은 방법은

나는 등 GA, 스크레이퍼, 구글 BQ, 같은 다양한 외부 소스에서 데이터를 매일 섭취하고 나는 CSV는 HDFS에 파일을 그것에서 단계 테이블을 만든 다음 하둡 역사적 테이블에 추가 생성 저장합니다. 당신은 어떻게 기록 하나 새로운 데이터를 valide하는 몇 가지 모범 사례를 공유 할 수 있습니까? 예를 들어처럼 그런 지난 10 일의 평균 또는가 someting와 실제 데이터의 행 수를 비교합니다. 스파크 뭔가 어떤 준비 솔루션이 있습니까?

충고에 감사하다.

해결법

    from https://stackoverflow.com/questions/52895881/best-way-ho-to-validate-ingested-data by cc-by-sa and MIT license