데이터 연계 및 통합 기법 - ADP #6

데이터 연계 및 통합 유형 (동기화 기준)

- 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음

- 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능

 

일괄 및 실시간 사례

일괄 작업 사례

- ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업

 

실시간 데이터 통합 사례

- 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데이터 아키텍처를 통해 구현 가능)

- 빅데이터 저장 인프라스트럭처의 활용과 병행 설계되어 데이터 중복을 허용하는 분산 저장 환경 구성 사례도 등장

 

데이터 연계 및 통합 아키텍처 비교

일괄(Batch) 통합 비동기식 실시간 통합 동기식 실시간 통합
- 비실시간 데이터 통합
- 대용량 데이터 대상
- 높은 데이터 조작 복잡성
- 데이터 추출
- 데이터 변형
- 데이터 적재
- CDC(Change data capture)
- 감사 증적
- 웹서비스/SOA
- 교차 참조
- 데이터 재 처리 허용
- 점대점 데이터 연계
- 자동화 도구 및 자체 개발 SW 혼용
- 근접 실시간(Near Real Time) 데이터 통합
- 중간 용량 데이터
- 중간 데이터 조작 복잡성
- 데이터 추출/변형/적재
- CDC
- Data pooling and DB Streams
- 웹 서비스/SOA
- 감사 증적(audit trail)
- 교차 참조
- 다수 데이터 원천 및 목표 시스템
- 데이터 재 처리 허용
- 자동화 도구 및 자체 개발 SW 혼용
- 실시간(Real Time) 데이터 통합
- 목표 시스템 데이터 처리 가능 시에만 원천 데이터 획득
- 데이터 추출/변형/적재
- 웹 서비스/SOA
- Single transaction integrations
- 단일 트랜잭션 단위 데이터 통합
- 데이터 재처리 불가
- 단일 또는 다수 데이터 원천
- 감사 증적

 

 

데이터 연계 및 통합 아키텍처 구성도

데이터 연계 및 통합 아키텍처 종합

 

데이터 연계의 변화

- 기존 ETL은 데이터 웨어하우스 구성만을 주목적으로 했으나, 최근에는 ODS, BI플랫폼, 하둡 클라우드 환경 등 다양한 통합 매커니즘을 지원하고 확장

- 최근 ETL 솔루션들은 빅데이터 환경과 전통적인 RDBMS 간 빅데이터 추출/변형/적재 지원

- 전자메일, 각종 문서 파일 등에 보관되는 비정형 또는 준정형 데이터 중요성 부각

- 빅데이터의 기술을 활용할 경우 향후 시스템 확장성과 유연성 확보

 

구분 전통적 데이터 처리 기법 빅데이터 처리 기법 비고
추출 - 운영 DB -> ODS 
- ODS -> 데이터 웨어하우스
- 빅데이터 환경 -> 빅데이터 환경 특정 소스에서 타깃으로 데이터를 옮긴다는 측면은 동일
변환 O O  
로딩 O O  
시각화 X O 시각화를 통해 대용량 데이터에서 Insight를 획득하는 시도는 빅데이터의 고유한 특성
분석 - OLAP
- 통계와 데이터 마이닝 기술
- 통계와 데이터 마이닝 기술 각종 통계 도구 및 기법과 데이터 마이닝의 분석 모델 설계ㆍ운영ㆍ개선 기법의 적용은 유사
리포팅 비즈니스 인텔리전스 비즈니스 인텔리전스  
인프라스트럭처 - SQL
- 전통적 RDBS 인스턴스 (HA 포함)
- NoSQL 등
- 초대형 분산(Redundant) 데이터 스토리지
다수의 노드에 중복을 허용하며 데이터를 저장하는 것은 빅데이터 고유한 특성

 

References

[1] 데이터 분석 전문가 가이드

댓글

Designed by JB FACTORY