1. ETL의 개요
가. ETL의 개념
- ETL은 Extraction, Transformation and Load의 약어로 이뤄졌으며 데이터 이동과 변환 절차에 관련된 업계 표준 용어
- 데이터 웨어하우스(DW, Data Warehouse), 운영 데이터 스토어(ODS, Operation Data Store), 데이터 마트(DW, Data Mart)에 대한 데이터 적재 작업의 핵심 구성요소
- 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)등 폭넓게 활용
- ETL을 위한 여러 상용 소프트웨어가 있으며, 일괄(Batch) ETL과 실시간(Real Time) ETL로 구분됨
나. ETL의 3가지 기능
3가지 기능 | 설명 |
Extraction(추출) | - 하나 또는 그 이상의 데이터 원천(Source) 들로부터 데이터 획득 |
Transformation(변형) | - 데이터 클렌징, 형식 변환, 표준화 작업 - 통합 또는 다수 애플리케이션에 내장된 비즈니스 룰 적용 |
Loading(적재) | - 변형 단계 처리가 완료된 데이터를 특정 목표 시스템에 적재 |
- 정기적인 실행 일정을 조정할 수 있는 재사용 가능한 컴포넌트들로 대용량 데이터를 처리하기 위한 MPP(Massive Parallel Processing)를 지원할 수 있음
다. ETL의 작업 단계
Step | 작업명 | 작업 내용 |
0 | interface | - 이기종 DBMS 및 스프레드 시트 등 데이터 원천(source)으로부터 데이터를 획득하기 위한 인터페이스 매커니즘 구현 |
1 | Staging ETL | - source로 부터 트랜잭션 데이터 획득 작업 수행 후, 획득된 데이터를 스테이징 테이블에 저장 |
2 | Profiling ETL | - 스테이징 테이블에서 특성을 식별하고 품질 측정 |
3 | Cleansing ETL | - 규칙들을 활용해 프로파일링된 데이터 보정 |
4 | Integration ETL | - (이름, 값, 구조) 데이터 충돌을 해소하고, 클렌징된 데이터 통합 |
5 | De-Normalizaing ETL | - 운영 보고서 생성, DW 또는 DM 데이터 적재를 위해 비정규화 수행 |
References
[1] https://ko.wikipedia.org/wiki/추출,_변환,_적재#/media/파일:Conventional_ETL_Diagram.jpg
[2] 데이터 분석 전문가 가이드
'IT 자격증 > 데이터 분석 전문가(ADP)' 카테고리의 다른 글
데이터 연계 및 통합 기법 - ADP #6 (0) | 2022.04.30 |
---|---|
EAI(Enterprise Application Integration) - ADP #5 (0) | 2022.04.01 |
CDC(변경 데이터 캡쳐, Change Data Capture) - ADP #4 (0) | 2022.03.31 |
데이터 웨어하우스(Data Warehouse, DW) - ADP #3 (0) | 2022.03.28 |
ODS(Operation Data Store) 구성 - ADP #2 (0) | 2022.03.13 |