자료처리

[039] 데이터 프로파일링이란 무엇인가?

현명한 부자아빠 2024. 8. 27. 20:21


01. 데이터 프로파일링이란?
데이터에 관한 중요한 정보와 통계치를 수집하기 위해 데이터 소스에 대해 일련의 데이터 검사 절차를 수행하는 기법

02.언제 하는가?
데이터의 저장, 연계, 가공, 활용 등 데이터의 변경이 발생하는 모든 영역에서 수시로 프로파일링을 수행함으로 데이터 오류를 사전에 파악하고 예방할 수 있다.


03.왜 하는가?
데이터 품질은 데이터 세트가 정확성, 완전성, 유효성, 일관성, 고유성, 적시성 및 목적 적합성에 대한 기준을 얼마나 잘 충족하는지 측정하며 조직 내의 모든 데이터 거버넌스 이니셔티브 및 인공지능 학습 데이터의 중요부분입니다.

04.데이터 프로파일링의 절차는 어떻게 되는가?

05.데이터 프로파일링의 영역은 어떻게 구분하는가?

  • 데이터 구조 영역: 데이터 모델, 도메인 속성 및 제약조건, DB현황(테이블/컬럼/Occurrence)
  • 데이터 활용 영역: 데이터 흐름, 어플리케이션 연관성, 데이터 사용 현황(조회건수, 사용자)
  • 데이터 관리 영역: 데이터 영역 및 분류 체계, 데이터 표준 및 관리 정책


06.프로파일링의 주요 기법은 무엇인가?

  • 열 프로파일링: 이 방법은 테이블을 스캔하여 각 열에 각 값이 표시되는 횟수를 계산합니다. 열 프로파일링은 열 내에서 빈도 분포와 패턴을 찾는 데 유용할 수 있습니다.
  • 교차 열 프로파일링: 이 기술은 키 분석과 종속성 분석의 두 가지 프로세스로 구성됩니다. 키 분석 프로세스는 가능한 기본 키를 스카우트하여 속성 값의 배열을 확인합니다. 종속성 분석 프로세스는 데이터 집합 내에 포함된 관계 또는 패턴을 식별하기 위해 작동합니다.
  • 크로스 테이블 프로파일링: 이 기법은 키 분석을 사용하여 표류 데이터를 식별합니다. 외래 키 분석은 분리된 레코드 또는 일반적인 차이점을 식별하여 서로 다른 테이블의 열 집합 간의 관계를 조사합니다.
  • 데이터 규칙 유효성 검사: 이 방법은 설정된 규칙 및 표준에 따라 데이터 세트를 평가하여 실제로 사전 정의된 규칙을 따르고 있는지 확인합니다.
  • 키 무결성: 키가 항상 데이터에 존재하고 문제가 될 수 있는 분리된 키를 식별하도록 합니다.
  • 카디널리티: 이 기술은 데이터 세트 간의 일대일 및 일대다와 같은 관계를 확인합니다.
  • 패턴 및 주파수 분포: 이 기술을 사용하면 데이터 필드의 형식이 올바르게 지정됩니다.

07.데이터 프로파일링 vs 데이터 마이닝의 차이는 무엇인가?

  • 데이터 프로파일링은 데이터와 그 특성을 이해하는 데 도움이 되는 반면, 데이터 마이닝은 데이터를 분석하여 패턴이나 추세를 발견하는 프로세스입니다.
  • 데이터 프로파일링은 메타데이터를 수집한 다음 데이터 관리를 지원하기 위해 메타데이터를 분석하는 방법을 사용하는 데 중점을 둡니다.

즉, 데이터 프로파일링은 데이터가 정확하고 부정확성이 없는지 확인하기 위해 사용하는 기법입니다.