빅데이터 분석 방법론 , ADsP #17

    본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다.

     

     

    빅테이터 분석 방법론

     

    빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성

    • Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제
    • Task (태스크)  : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
    • Step (스텝) : WBS(Work Breakdown Structure)의 워크패키지(Work Package)에 해당되고 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)

    WBS의 예시

     

    현업에서 많이 사용하는 테이블 구조의 WBS

     

     

    빅데이터 분석 방법론 참조 모델

     

     

    분석 기획(Planning)

     

    비즈니스 이해 및 범위 설정

    - 프로젝트 진행을 위해 비즈니스에 대한 충분한 이해와 도메인 문제점 파악

    - 업무 매뉴얼 및 업무 전문가 도움 필요, 구조화된 명세서 작성

     

    1) 비즈니스 이해

    - 내부 업무 매뉴얼과 관련자료, 외부의 관련 비즈니스 자료 조사, 향후 프로젝트 진행을 위한 방향 설정

    - 입력 : 업무 매뉴얼, 전문가의 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료

    - 처리 및 도구 : 자료 수집 및 비즈니스 이해

    - 출력 : 비즈니스 이해 및 도메인 문제점

     

    2) 프로세스 범위 설정

    - 비즈니스에 대한 이해와 프로젝트 목적에 부함하는 범위(Scope)을 명확하게 설정, 이해 관계자(Stakeholders)의 이해를 일치 시키기 위해 구조화 된 프로젝트 범위 정의서(Statement Of Work, SOW)를 작성

    - 입력 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점

    - 처리 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차

    - 출력 : 프로젝트 범위 정의서(SOW)

     

     

    프로젝트 정의 및 계획 수립

    - 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정, 프로젝트의 정의를 명확하게 함

    - WBS를 만들고 데이터 확보계획, 빅데이터 분석 방법, 일정계획, 예산계획, 품질계획, 인력구성계획, 의사소통계획 등을 포함하는 프로젝트 수행 계획을 작성

     

    1) 데이터 분석 프로젝트 정의

    - 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화하여 상세 프로젝트 정의서를 작성하고 프로젝트의 목표를 명확화하기 위해 모델 운영 이미지 및 평가 기준 설정

    - 입력 : 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서

    - 처리 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계

    - 출력 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준

     

    2) 프로젝트 수행 계획 수립

    - 프로젝트의 목적 및 배경, 기대효과, 수행방법, 일정 및 추진조직, 프로젝트 관리 방안 작성

    - WBS는 프로젝트 산출물 위주로 작성되어 프로젝트 범위 명확화

    - 입력 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준

    - 처리 및 도구 : 프로젝트 수행 계획 작성, WBS 작성 도구, 일정 계획 수립 도구

    - 출력 : 프로젝트 수행 계획서, WBS

     

     

    프로젝트 위험계획 수립

    - 발생 가능한 모든 위험(Risk)를 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높임

     

    1) 데이터 분석 위험 식별

    - 프로젝트 산출물과 정리자료(Lesson Learned)를 참조하고 전문가의 판단 활용

    - 식별된 위험은 위험의 영향도와 빈도, 발생가능성 등을 평가하여 위험의 우선 순위 설정

    - 입력 : 프로젝트 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료

    - 처리 및 도구 : 위험 식별 절차, 위험영향도 및 발생가능성 분석, 위험 우선순위 판단

    - 출력 : 식별된 위험 목록

     

    2) 위험 대응 계획 수립

    - 식별된 위험은 상세한 정량적/정성적 분석을 통하여 위험 대응방안 수립

    - 대응은 회피(Avoid), 전이(Transfer), 완화(Mitigate). 수용(Accept)로 구분하여 작성

    - 입력 : 식별된 위험 목록, 프로젝트 정의서, 프로젝트 수행 계획서

    - 처리 및 도구 : 위험 정량적/정성적 분석

    - 출력 : 위험관리 계획서

     

     

    데이터 준비(Preparing)

     

    필요 데이터 정의

    - 정형/비정형/반정형 등의 모든 내/외부 데이터 포함하고 데이터 속성, 오너, 담당자 등을 포함하는 데이터 정의 서 작성

    - 구체적인 데이터 획득방안을 상세하게 수립하여 프로젝트 지연 방지

     

    1) 데이터 정의

    - 내/외부 원천 데이터 소스(Raw Data Source)로 부터 분석에 필요한 데이터 정의

    - 입력 : 프로젝트 수행 계획서, 시스템 설계서, ERD(Entity Relationship Diagram), 메타 데이터 정의서, 문서 자료

    - 처리 및 도구 : 내/외부 데이터 정의, 정형/비정형/반정형 데이터 정의

    - 출력 : 데이터 정의서

     

    2) 데이터 획득방안 수립

    - 부서간 업무협조와 개인정보보호 및 정보보안과 관련한 문제점을 사전 점검, 외부 데이터 획득은 인터페이스 및 법적인 문제점 고려

    - 입력 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서 자료, 데이터 구입

    - 처리 및 도구 : 데이터 획득 방안 수립

    - 출력 : 데이터 획득 계획서

     

     

    데이터 스토어 설계

    - 획득 방안이 수립되면 전사 차원의 데이터 스토어(Data Store) 설계

     

    1) 정형 데이터 스토어 설계

    - 일반적으로 RDMS(관계형 데이터베이스)를 사용하고, 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계

    - 입력 : 데이터 정의서, 데이터 획득 계획서

    - 처리 및 도구 : 데이터베이스 논리설계, 데이터베이스 물리설계, 데이터 매핑(Data Mapping)

    - 출력 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서

     

    2) 비정형 데이터 스토어 설계

    - 하둡(Hadoop), NoSQL 등을 이용한 논리적, 물리적 데이터 스토어 설계

    - 입력 : 데이터 정의서, 데이터 획득 계획서

    - 처리 및 도구 : 비정형/반정형 데이터 논리 및 물리 설계

    - 출력 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서

     

     

    데이터 수집 및 정합성 점검

    - 데이터 스토어에 크롤링(Crawling), 실시간 처리(Real Time), 배치 처리(Batch) 등으로 데이터 수집

    - 데이터베이스간 연동, API를 이용한 개발, ETL(Extract Transform Load) 도구의 활용 등 수집 프로세스 진행

     

    1) 데이터 수집 및 저장

    - ETL, API, Script 프로그램 등을 이용하여 데이터 수집하고 데이터 스토어에 저장

    - 입력 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서

    - 처리 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트

    - 출력 : 수집된 분석용 데이터

     

    2) 데이터 정합성 검증

    - 데이터 스토어에 데이터 정합성을 확보하고 품질개선이 필요한 부분의 보완 작업 수행

    - 입력 : 수집된 분석용 데이터

    - 처리 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트

    - 출력 : 데이터 정합성 점검 보고서

     

     

    데이터 분석(Analyzing)

     

    분석용 데이터 준비

    - 프로젝트 목표와 도메인을 이해하고 비즈니스 룰(Business Rule)을 확인

    - 데이터 스토어에서 분석용 데이터 셋을 ETL 도구 등을 이용하여 추출하고 구조화된 데이터 형태로 편성

     

    1) 비즈니스 룰 확인

    - 프로젝트의 목표를 정확하게 인식, 이해를 바탕으로 세부적인 비즈니스 룰 파악 및 데이터 범위 확인

    - 입력 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어

    - 처리 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인

    - 출력 : 비즈니스 룰, 분석에 필요한 데이터 범위

     

    2) 분석용 데이터셋 준비

    - 분석을 위해 추출된 데이터는 DB나 구조화된 형태로 구성하고 필요시 분석을 위한 작업 공간과 전사 차원의 데이터 스토어로 분리할 수 있음

    - 입력 : 데이터 정의서, 데이터 스토어

    - 처리 및 도구 : 데이터 선정, 데이터 변환, ETL 도구

    - 출력 : 분석용 데이터셋

     

     

    텍스트 분석

    - 웹페이지/로그/텍스트 자료 등을 이용하여 어휘/구문 분석(Word Analysis), 감성 분석(Sentimental Analysis), 토픽 분석(Topic Analysis), 오피니언 분석(Opinion Analysis), 소셜 네트워크 분석(Social Network Analysis)  등을 실시하여 적절한 모델 구축

     

    1) 텍스트 데이터 확인 및 추출

    - 비정형 데이터를 데이터 스토어에서 확인하고 필요한 데이터 추출

    - 입력 : 비정형 데이터 스토어

    - 처리 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출

    - 출력 : 분석용 텍스트 데이터

     

    2) 텍스트 데이터 분석

    - 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석하고 모델 구축, 용어 사전(유의어, 불용어 등)을 확보하고 도메인에 맞도록 작성, 구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미 전달 명확화

    - 입력 : 분석용 텍스트 데이터, 용어사전(유의어, 불용어 등)

    - 처리 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 오피니언 분석, 네트워크 분석

    - 출력 : 텍스트 분석 보고서

     

     

    탐색적 분석

    - 분석용 데이터셋에 대한 정합성 검토, 데이터 요약, 데이터 특성 파악 및 모델링에 필요한 데이터 편성

    - EDA(Exploratory Data Analaysis)는 다양한 데이터 시각화를 활용하여 가독성을 높이고 형상 및 분포 등 파악

     

    1) 탐색적 데이터 분석

    - 기초 통계량(평균, 분산, 표준편차, 최대값, 최소값 등)을 산출하고 분포와 변수간의 관계 등 데이터 자체의 특성 및 통계적 특성을 이해하고 모델링을 위한 기초 자료 활용

    - 입력 : 분석용 데이터셋

    - 처리 및 도구 : EDA 도구, 통계 분석, 변수간 연관성 분석, 데이터 분포 확인

    - 출력 : 데이터 탐색 보고서

     

    2) 데이터 시각화

    - 탐색적 분석을 위한 도구로 활용, 모델의 시스템화를 위한 시각화를 목적으로 할 경우 시각화 기획, 시각화 설계, 시각화 구현 등의 별도 프로세스를 따라 진행

    - 입력 : 분석용 데이터셋

    - 처리 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론

    - 출력 : 데이터 시각화 보고서

     

     

    모델링

    - 가설 설정을 통해 통계 모델을 만들거나 기계학습(지도학습, 비지도학습 등)을 이용하여 모델을 만드는 과정

    - 훈련용(Training)과 테스트용(Testing)으로 분할하여 과적합(Over-Fitting) 방지하고 모델의 일반화에 이용

     

    1) 데이터 분할

    - Training과 Testing 용으로 분할, 교차검증(Cross Validation) 수행가거나 앙상블(Essemble) 기법을 적용할 경우 데이터 분할 또는 검증 횟수, 생성모델 갯수 등을 설정하여 분할 기법 응용

    - 입력 : 분석용 데이터셋

    - 처리 및 도구 : 데이터 분할 패키지

    - 출력 : 훈련용 데이터, 테스트용 데이터

     

    2) 데이터 모델링

    - 분류(Classification), 예측(Prediction), 군집(Clustering) 등의 모델을 만들어 가동중인 운영 시스템에 적용

    - 입력 : 분석용 데이터셋

    - 처리 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트

    - 출력 : 모델링 결과 보고서

     

    3) 모델 적용 및 운영 방안

    - 운영에 적용하기 위해선 상세한 알고리즘 설명서 작성 필요, 필요시 의사코드(Pseudocode) 수준의 상세한 작성 필요

    - 입력 : 모델링 결과 보고서

    - 처리 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성

    - 출력 : 알고리즘 설명서, 모니터링 방안

     

     

    모델 평가 및 검증

    - 프로젝트 정의서의 평가 기준에 따라 모델의 완성도 평가, 검증은 분석용 데이터셋이 아닌 별도의 데이터셋으로 검증

    - 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행

     

    1) 모델 평가

    - 모델 평가를 위해 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나 필요시 모델 검증을 위한 별도의 데이터를 활용

    - 입력 : 모델링 결과 보고서, 평가용 데이터

    - 처리 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업

    - 출력 : 모델 평가 보고서

     

    2) 모델 검

    - 운영 데이터를 확보한 검증용 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서 작성

    - 입력 : 모델링 결과 보고서, 모델 평가 보고서, 검증용 데이터

    - 처리 및 도구 : 모델 검증

    - 출력 : 모델 검증 보고서

     

     

    시스템 구현(Developing)

     

    설계 및 구현

    - 모델링 태스크에서 작성된 알고리즘 설명서와 데이터 시각화 보고서를 이용하여 시스템 및 데이터 아키텍쳐 설계, 사용자 인터페이스 설계를 진행

    - 설계서를 바탕으로 BI(Business Intelligence) 패키지를 활용하거나 새롭게 프로그램을 코딩하여 구축

     

    1) 시스템 분석 및 설계

    - 가동중인 시스템을 분석하고 알고리즘 설명서에 근거하여 응용시스템 구축 설계 프로세스를 진행

    - 입력 : 알고리즘 설명서, 운영중인 시스템 설계서

    - 처리 및 도구 : 정보시스템 개발방법론

    - 출력 : 시스템 분석 및 설계서

     

    2) 시스템 구현

    - 시스템 분석 및 설계서를 따라 BI 패키지를 활용하거나 새롭게 시스템 구축

    - 입력 : 시스템 분석 및 설계서, 알고리즘 설명서

    - 처리 및 도구 : 시스템 통합개발도구(IDE), 프로그램 언어, 패키지

    - 출력 : 구현 시스템

     

     

    시스템 테스트 및 운영

    - 시스템에 구현된 모델은 테스트를 통해 가동중인 시스템에 적용하고 효율적인 운영을 위한 프로세스 진행

     

    1) 시스템 테스트

    - 구축된 시스템의 검증(Verification & Validation)을 위해 단위테스트, 통합테스트, 시스템 테스트등 실시

    - 입력 : 구현 시스템, 시스템 테스트 계획서

    - 처리 및 도구 : 품질관리 활동

    - 출력 : 시스템 테스트 결과보고서

     

    2) 시스템 운영 계획

    - 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획 수립

    - 입력 : 시스템 분석 및 설계서, 구현 시스템

    - 처리 및 도구 : 운영계획 수립, 운영자 및 사용자 교육

    - 출력 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서

     

     

    평가 및 전개(Deploying)

     

    모델 발전 계획 수립

    - 모델의 생명 주기(Life Cycle)를 설정, 주기적인 평가 실시하여 유지보수하거나 재구축 방안 마련

    - 모델의 특성을 고려하여 모델 업데이터를 자동화하는 방안 수립 적용할 수 있음

     

    1) 모델 발전 계획

    - 발전계획을 상세하게 수립하여 모델의 계속성 확보

    - 입력 : 구현 시스템, 프로젝트 산출물

    - 처리 및 도구 : 모델 발전 계획 수립

    - 출력 : 모델 발전 계획서

     

     

    프로젝트 평가 및 보고

    - 기획 단계에서 설정된 기준에 따라 프로젝트의 성과를 정량적, 정성적 평가하고 프로젝트 진행과정에서 지식, 프로세스, 출력자료를 지식자산화하고 프로젝트 최종 보고서를 작성한 후 의사소통계획에 따라 프로젝트 종료

     

    1) 프로젝트 성과 평가

    - 프로젝트의 정량적 성과와 정성적 성과로 나눠 성과 평가서 작성

    - 입력 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서

    - 처리 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가

    - 출력 : 프로젝트 성과 평가서

     

    2) 프로젝트 종료

    - 진행과정의 모든 산출물 및 프로세스를 지식자산화하고 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 프로젝트 종료

    - 입력 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서

    - 처리 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료

    - 출력 : 프로젝트 최종 보고서

     

     

    연관자료

     

    2과목 1장 분석기획 방향성 도출, ADP 요약 및 설명 #13

    분석 방법론과 업무 특성에 따른 모델 , ADP/ADsP #14

    KDD 분석 방법론 , ADP #15

    CRISP-DM 분석 방법론 , ADP #16

     

    댓글

    Designed by JB FACTORY