ETL(Extraction, Transformation and Load) - ADP #1

    1. ETL의 개요

    가. ETL의 개념

    - ETL은 Extraction, Transformation and Load의 약어로 이뤄졌으며 데이터 이동과 변환 절차에 관련된 업계 표준 용어

    - 데이터 웨어하우스(DW, Data Warehouse), 운영 데이터 스토어(ODS, Operation Data Store), 데이터 마트(DW, Data Mart)에 대한 데이터 적재 작업의 핵심 구성요소

    - 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)등 폭넓게 활용

    - ETL을 위한 여러 상용 소프트웨어가 있으며, 일괄(Batch) ETL과 실시간(Real Time) ETL로 구분됨

     

    전통적인 ETL 구조 [1]

     

    나. ETL의 3가지 기능

    3가지 기능 설명
    Extraction(추출) - 하나 또는 그 이상의 데이터 원천(Source) 들로부터 데이터 획득
    Transformation(변형) - 데이터 클렌징, 형식 변환, 표준화 작업
    - 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용
    Loading(적재) - 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재

    - 정기적인 실행 일정을 조정할 수 있는 재사용 가능한 컴포넌트들로 대용량 데이터를 처리하기 위한 MPP(Massive Parallel Processing)를 지원할 수 있음

     

    다. ETL의 작업 단계

    ODC와 데이터 웨어하우스 개념도 [2]

     

    Step 작업명 작업 내용
    0 interface - 이기종 DBMS 및 스프레드 시트 등 데이터 원천(source)으로부터 데이터를 획득하기 위한 인터페이스 매커니즘 구현
    1 Staging ETL - source로 부터 트랜잭션 데이터 획득 작업 수행 후, 획득된 데이터를 스테이징 테이블에 저장
    2 Profiling ETL - 스테이징 테이블에서 특성을 식별하고 품질 측정
    3 Cleansing ETL - 규칙들을 활용해 프로파일링된 데이터 보정
    4 Integration ETL - (이름, 값, 구조) 데이터 충돌을 해소하고, 클렌징된 데이터 통합
    5 De-Normalizaing ETL - 운영 보고서 생성, DW 또는 DM 데이터 적재를 위해 비정규화 수행

     

    References

    [1] https://ko.wikipedia.org/wiki/추출,_변환,_적재#/media/파일:Conventional_ETL_Diagram.jpg

    [2] 데이터 분석 전문가 가이드

    댓글

    Designed by JB FACTORY