CRISP-DM 분석 방법론 , ADsP #16

    본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다.

     

     

    CRISP-DM 데이터 마이닝 방법론

     

    CRISP-DM(Cross Industry Standard Process for Data Mining)은 데이터 마이닝 전문가가 사용하는 일반적인 접근 방식을 설명한 가장 널리 사용되는 공개 표준 분석 모델입니다. 2015년 IBM은 CRISP-DM을 개선하고 확장하는 데이터 마이닝 / 예측 분석을 위한 분석 솔루션 통합 방법(ASUM-DM)이라는 새로운 방법론을 발표하기도 했습니다.

     

    이 방법론은 1996년에 유럽연합의 ESPRIT에서 있던 프로젝트로 시작했으면 Integral Solutions Ltd (ISL) , Teradata , Daimler AG , NCR Corporation 및 보험 회사 인 OHRA의 5 개 회사가 주도(ISL은 나중에 SPSS에 병합)하였습니다. 

     

     

    CRISP-DM의 4 Level 구조

     

    CRISP-DM의 레벨은 4단계로 구성이 되어 있다

     

     

    • Phases(단계) : 우리가 생각하는 일반적인 단계 (ex: 기획, 수집, 분석)
    • Generic Tasks(일반과제) : 데이터마이닝의 단일 프로세스를 완벽하게 수행하는 단위 (ex: 데이터 정제)
    • Specialized Tasks(세부과제) : 일반과제를 구체적으로 나눈 태스크로 데이터 정제라는 일반화 과제를 범주형/연속형 데이터 정제와 같은 태스크로 구성가능
    • Process Instances(프로세스 실행) : 데이터마이닝을 위한 구체적인 실행

     

    CRISP-DM의 프로세스

     

    CRISP-DM 프로세스는 6단계로 구성되어 있으며, 폭포수 모형처럼 단반향으로 구성되어 있지 않고 단계간 피드백을 통해 완성도를 높이는 방식이다

     

     

    Business Understanding(비즈니스 이해)

    - 각종 참고 자료와 현업 책임자와의 커뮤니케이션을 통해 비즈니스를 이해하는 단계

    - 수행업무 : 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

     

    Data Understanding(데이터 이해)

    - 분석을 위한 데이터를 수집 및 속성을 이해하고, 문제점을 식별하며 숨겨져 있는 인사이트 발견하는 단계

    - 수행업무 : 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

     

    Data Preparation(데이터 준비)

    - 데이터 정제, 새로운 데이터 생성 등 자료를 분석 가능한 상태로 만드는 단계(많은 시간이 소요 될 수 있음)

    - 수행업무 : 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, Training/Test 데이터 분리 등

     

     

    Modeling(모델링)

    - 다양한 모델링 기법과 알고리즘을 선택하고 파라미터를 최적화 하는 단계

    - 모델링 결과를 검증용 데이터 데이터로 평가하여 과적합(Over-Fitting) 문제를 추가 확인

    - 수행업무 : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

     

    Evaluation(평가)

    - 모형의 해석 가능 여부 및 결과가 프로젝트 목적에 부합하는지 평가하며 결과를 수용할 것인지 판단하는 단계

    - 수행업무 : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

     

    Deployment(전개)

    - 모델링과 평가 단계를 통해 완성된 모델을 업무에 적용하기 위한 계획 수립

    - 모니터링과 모델의 유지보수 계획을 마련하고 각 관리자에게 전달하여 필요한 조치를 취하며 검토가 완료된 모형을 현업에 적용

    - 수행업무 : 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

     

     

    CRISP-DM과 KDD 방법론의 비교

     

     

     

     

     

    참고자료

    https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining

     

    연관자료

     

    2과목 1장 분석기획 방향성 도출, ADP 요약 및 설명 #13

    분석 방법론과 업무 특성에 따른 모델 , ADP/ADsP #14

    KDD 분석 방법론 , ADP #15

     

    댓글

    Designed by JB FACTORY