데이터 웨어하우스(Data Warehouse, DW) - ADP #3

    1. 데이터 웨어하우스의 개념

    - 데이터 웨어하우스는 ODS를 통해 정제 및 통합된 데이터가 데이터 분석과 보고서 생성을 위해 적재되는 곳 (데이터 분석 전문가 가이드)

    - 데이터 웨어하우스는 보다 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 정보의 중앙 리포지토리(Repository)이다. (AWS 사이트)

    - 데이터 웨어하우스는 다양한 소스의 데이터를 하나의 중앙 데이터 저장소로 집계함으로써 분석, 데이터 마이닝, 머신 러닝 및 AI를 지원하는 시스템 (IBM 사이트)

     

    데이터 웨어하우스(Data Warehouse, DW) - ADP #3

     

    2. 데이터 웨어하우스의 특징

    주제 중심(Subject Oriented)

    - 실 업무 상황의 특정 이벤트나 업무 항목을 기준으로 구조화 된다.

     

    영속성(Non Volatile)

    - 최초 저장 이후에는 읽기 전용(Read Only) 속성을 가지며 삭제되지 않는다.

     

    통합성(Integrated)

    - 기관 및 조직이 보유한 대부분의 운영 시스템들에 의해 생성된 데이터들의 통합본

     

    시계열성(Time Variant)

    - 운영 시스템들은 최신 데이터를 보유하지만, 데이터 웨어하우스는 시간 순에 의한 이력 데이터를 보유한다.

     

     

    3. 데이터 웨어하우스의 스키마

    가. 스타 스키마(Star Schema)

    - 스타 스키마는(star schema)는 조인 스키마(join schema)라고도 불리우며, 데이터 웨어하우스 스키마 중 가장 단순한 종류로 이해하기 쉽고 한 개의 사실 테이블(Fact Table)과 다수의 차원 테이블(Dimensional Table)로 구성된다.

    - 다차원 데이터베이스(Multi-Dimensional Database) 기능을 구현 할 수 있음

    - 사실 테이블은 보통 제3정규형으로 모델링하며, 차원 테이블은 보통 비정규화(de-normalized)된 제2정규형으로 모델링한다.

    - 차원 테이블을 정규화 하는 것을 스노우 플래이크 스키마라고 한다.

    - 스노우 플래이크 스키마에 비해 복잡도가 낮아서 이해하기 쉽고, 쿼리 작성이 용이하며 조인 테이블 개수가 적음

    - 비정규화에 따른 데이터 중복으로 적재 시 상대적으로 많은 시간이 소요됨

     

    스타 스키마 사례, https://commons.wikimedia.org/wiki/File:Star_Schema.png

     

     

    나. 스노우 플래이크 스키마

    - 스타 스키마의 차원 테이블을 제3정규형으로 정규화한 형태로 데이터 중복이 제거

    - 중복 제거로 적재 시 시간이 단축되는 장점 존재

    - 스키마 구조의 복잡성에 따른 조인 테이블 개수 증가와 쿼리 작성 난이도 상승하는 단점 존재

     

    스노우 플래이크 스키마 사례, https://commons.wikimedia.org/w/index.php?curid=21228704

     

     

    참고자료

    [1] 데이터 분석 전문가 가이드

     

     

    댓글

    Designed by JB FACTORY