데이터 연계 및 통합 기법 - ADP #6

    데이터 연계 및 통합 유형 (동기화 기준)

    - 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음

    - 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능

     

    일괄 및 실시간 사례

    일괄 작업 사례

    - ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업

     

    실시간 데이터 통합 사례

    - 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데이터 아키텍처를 통해 구현 가능)

    - 빅데이터 저장 인프라스트럭처의 활용과 병행 설계되어 데이터 중복을 허용하는 분산 저장 환경 구성 사례도 등장

     

    데이터 연계 및 통합 아키텍처 비교

    일괄(Batch) 통합 비동기식 실시간 통합 동기식 실시간 통합
    - 비실시간 데이터 통합
    - 대용량 데이터 대상
    - 높은 데이터 조작 복잡성
    - 데이터 추출
    - 데이터 변형
    - 데이터 적재
    - CDC(Change data capture)
    - 감사 증적
    - 웹서비스/SOA
    - 교차 참조
    - 데이터 재 처리 허용
    - 점대점 데이터 연계
    - 자동화 도구 및 자체 개발 SW 혼용
    - 근접 실시간(Near Real Time) 데이터 통합
    - 중간 용량 데이터
    - 중간 데이터 조작 복잡성
    - 데이터 추출/변형/적재
    - CDC
    - Data pooling and DB Streams
    - 웹 서비스/SOA
    - 감사 증적(audit trail)
    - 교차 참조
    - 다수 데이터 원천 및 목표 시스템
    - 데이터 재 처리 허용
    - 자동화 도구 및 자체 개발 SW 혼용
    - 실시간(Real Time) 데이터 통합
    - 목표 시스템 데이터 처리 가능 시에만 원천 데이터 획득
    - 데이터 추출/변형/적재
    - 웹 서비스/SOA
    - Single transaction integrations
    - 단일 트랜잭션 단위 데이터 통합
    - 데이터 재처리 불가
    - 단일 또는 다수 데이터 원천
    - 감사 증적

     

     

    데이터 연계 및 통합 아키텍처 구성도

    데이터 연계 및 통합 아키텍처 종합

     

    데이터 연계의 변화

    - 기존 ETL은 데이터 웨어하우스 구성만을 주목적으로 했으나, 최근에는 ODS, BI플랫폼, 하둡 클라우드 환경 등 다양한 통합 매커니즘을 지원하고 확장

    - 최근 ETL 솔루션들은 빅데이터 환경과 전통적인 RDBMS 간 빅데이터 추출/변형/적재 지원

    - 전자메일, 각종 문서 파일 등에 보관되는 비정형 또는 준정형 데이터 중요성 부각

    - 빅데이터의 기술을 활용할 경우 향후 시스템 확장성과 유연성 확보

     

    구분 전통적 데이터 처리 기법 빅데이터 처리 기법 비고
    추출 - 운영 DB -> ODS 
    - ODS -> 데이터 웨어하우스
    - 빅데이터 환경 -> 빅데이터 환경 특정 소스에서 타깃으로 데이터를 옮긴다는 측면은 동일
    변환 O O  
    로딩 O O  
    시각화 X O 시각화를 통해 대용량 데이터에서 Insight를 획득하는 시도는 빅데이터의 고유한 특성
    분석 - OLAP
    - 통계와 데이터 마이닝 기술
    - 통계와 데이터 마이닝 기술 각종 통계 도구 및 기법과 데이터 마이닝의 분석 모델 설계ㆍ운영ㆍ개선 기법의 적용은 유사
    리포팅 비즈니스 인텔리전스 비즈니스 인텔리전스  
    인프라스트럭처 - SQL
    - 전통적 RDBS 인스턴스 (HA 포함)
    - NoSQL 등
    - 초대형 분산(Redundant) 데이터 스토리지
    다수의 노드에 중복을 허용하며 데이터를 저장하는 것은 빅데이터 고유한 특성

     

    References

    [1] 데이터 분석 전문가 가이드

    댓글

    Designed by JB FACTORY