데이터 연계 및 통합 기법 - ADP #6
- IT 자격증/데이터 분석 전문가(ADP)
- 2022. 4. 30.
데이터 연계 및 통합 유형 (동기화 기준)
- 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음
- 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능
일괄 및 실시간 사례
일괄 작업 사례
- ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업
실시간 데이터 통합 사례
- 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데이터 아키텍처를 통해 구현 가능)
- 빅데이터 저장 인프라스트럭처의 활용과 병행 설계되어 데이터 중복을 허용하는 분산 저장 환경 구성 사례도 등장
데이터 연계 및 통합 아키텍처 비교
일괄(Batch) 통합 | 비동기식 실시간 통합 | 동기식 실시간 통합 |
- 비실시간 데이터 통합 - 대용량 데이터 대상 - 높은 데이터 조작 복잡성 - 데이터 추출 - 데이터 변형 - 데이터 적재 - CDC(Change data capture) - 감사 증적 - 웹서비스/SOA - 교차 참조 - 데이터 재 처리 허용 - 점대점 데이터 연계 - 자동화 도구 및 자체 개발 SW 혼용 |
- 근접 실시간(Near Real Time) 데이터 통합 - 중간 용량 데이터 - 중간 데이터 조작 복잡성 - 데이터 추출/변형/적재 - CDC - Data pooling and DB Streams - 웹 서비스/SOA - 감사 증적(audit trail) - 교차 참조 - 다수 데이터 원천 및 목표 시스템 - 데이터 재 처리 허용 - 자동화 도구 및 자체 개발 SW 혼용 |
- 실시간(Real Time) 데이터 통합 - 목표 시스템 데이터 처리 가능 시에만 원천 데이터 획득 - 데이터 추출/변형/적재 - 웹 서비스/SOA - Single transaction integrations - 단일 트랜잭션 단위 데이터 통합 - 데이터 재처리 불가 - 단일 또는 다수 데이터 원천 - 감사 증적 |
데이터 연계 및 통합 아키텍처 구성도
데이터 연계의 변화
- 기존 ETL은 데이터 웨어하우스 구성만을 주목적으로 했으나, 최근에는 ODS, BI플랫폼, 하둡 클라우드 환경 등 다양한 통합 매커니즘을 지원하고 확장
- 최근 ETL 솔루션들은 빅데이터 환경과 전통적인 RDBMS 간 빅데이터 추출/변형/적재 지원
- 전자메일, 각종 문서 파일 등에 보관되는 비정형 또는 준정형 데이터 중요성 부각
- 빅데이터의 기술을 활용할 경우 향후 시스템 확장성과 유연성 확보
구분 | 전통적 데이터 처리 기법 | 빅데이터 처리 기법 | 비고 |
추출 | - 운영 DB -> ODS - ODS -> 데이터 웨어하우스 |
- 빅데이터 환경 -> 빅데이터 환경 | 특정 소스에서 타깃으로 데이터를 옮긴다는 측면은 동일 |
변환 | O | O | |
로딩 | O | O | |
시각화 | X | O | 시각화를 통해 대용량 데이터에서 Insight를 획득하는 시도는 빅데이터의 고유한 특성 |
분석 | - OLAP - 통계와 데이터 마이닝 기술 |
- 통계와 데이터 마이닝 기술 | 각종 통계 도구 및 기법과 데이터 마이닝의 분석 모델 설계ㆍ운영ㆍ개선 기법의 적용은 유사 |
리포팅 | 비즈니스 인텔리전스 | 비즈니스 인텔리전스 | |
인프라스트럭처 | - SQL - 전통적 RDBS 인스턴스 (HA 포함) |
- NoSQL 등 - 초대형 분산(Redundant) 데이터 스토리지 |
다수의 노드에 중복을 허용하며 데이터를 저장하는 것은 빅데이터 고유한 특성 |
References
[1] 데이터 분석 전문가 가이드
'IT 자격증 > 데이터 분석 전문가(ADP)' 카테고리의 다른 글
분산 파일 시스템 (Distributed File System) - ADP #8 (0) | 2022.05.02 |
---|---|
대용량 비정형 데이터 처리 - ADP #7 (0) | 2022.05.01 |
EAI(Enterprise Application Integration) - ADP #5 (0) | 2022.04.01 |
CDC(변경 데이터 캡쳐, Change Data Capture) - ADP #4 (0) | 2022.03.31 |
데이터 웨어하우스(Data Warehouse, DW) - ADP #3 (0) | 2022.03.28 |