1. 데이터 웨어하우스의 개념
- 데이터 웨어하우스는 ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 곳 (데이터 분석 전문가 가이드)
- 데이터 웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리(Repository)이다. (AWS 사이트)
- 데이터 웨어하우스는 다양한 소스의 데이터를 하나의 중앙 데이터 저장소로 집계함으로써 분석, 데이터 마이닝, 머신 러닝 및 AI를 지원하는 시스템 (IBM 사이트)
2. 데이터 웨어하우스의 특징
주제 중심(Subject Oriented)
- 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화 된다.
영속성(Non Volatile)
- 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.
통합성(Integrated)
- 기관 및 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본
시계열성(Time Variant)
- 운영 시스템들은 최신 데이터를 보유하지만, 데이터 웨어하우스는 시간 순에 의한 이력 데이터를 보유한다.
3. 데이터 웨어하우스의 스키마
가. 스타 스키마(Star Schema)
- 스타 스키마는(star schema)는 조인 스키마(join schema)라고도 불리우며, 데이터 웨어하우스 스키마 중 가장 단순한 종류로 이해하기 쉽고 한 개의 사실 테이블(Fact Table)과 다수의 차원 테이블(Dimensional Table)로 구성된다.
- 다차원 데이터베이스(Multi-Dimensional Database) 기능을 구현 할 수 있음
- 사실 테이블은 보통 제3정규형으로 모델링하며, 차원 테이블은 보통 비정규화(de-normalized)된 제2정규형으로 모델링한다.
- 차원 테이블을 정규화 하는 것을 스노우 플래이크 스키마라고 한다.
- 스노우 플래이크 스키마에 비해 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하며 조인 테이블 개수가 적음
- 비정규화에 따른 데이터 중복으로 적재 시 상대적으로 많은 시간이 소요됨
나. 스노우 플래이크 스키마
- 스타 스키마의 차원 테이블을 제3정규형으로 정규화한 형태로 데이터 중복이 제거
- 중복 제거로 적재 시 시간이 단축되는 장점 존재
- 스키마 구조의 복잡성에 따른 조인 테이블 개수 증가와 쿼리 작성 난이도 상승하는 단점 존재
참고자료
[1] 데이터 분석 전문가 가이드
'IT 자격증 > 데이터 분석 전문가(ADP)' 카테고리의 다른 글
데이터 연계 및 통합 기법 - ADP #6 (0) | 2022.04.30 |
---|---|
EAI(Enterprise Application Integration) - ADP #5 (0) | 2022.04.01 |
CDC(변경 데이터 캡쳐, Change Data Capture) - ADP #4 (0) | 2022.03.31 |
ODS(Operation Data Store) 구성 - ADP #2 (0) | 2022.03.13 |
ETL(Extraction, Transformation and Load) - ADP #1 (0) | 2022.02.27 |