KDD 분석 방법론 , ADsP #15

    1. KDD(Knowledge Discovery in Databases)의 개요

    - KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스

    - 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조

     

    Fayyad 박사

     

     

    - 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시

     

    9개의 프로세스

    1. 분석 대상 비즈니스 도메인의 이해
    2. 분석 대상 데이터셋 선택과 생성
    3. 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier) 등을 제거하는 정제작업이나 선처리
    4. 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
    5. 분석 목적에 맞는 데이터 마이닝 기법 선택
    6. 분석 목적에 맞는 데이터 마이밍 알고리즘 선택
    7. 데이터 마이닝 시행
    8. 데이터 마이닝 결과에 대한 해석
    9. 데이터 마이닝에서 발견된 지식 활용

     

    KDD 분석 절차 (5가지 프로세스)

     

     

    1) 데이터셋 선택 (Selection)

    - 선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수

    - 목표데이터(target data)를 구성하여 분석 활용

     

    2) 데이터 전처리 (Preprocessing)

    - 잡음(Noise), 이상치(Outliner), 결측치(Missing Value) 등을 제거

    - 추가로 요구되는 데이터 셋이 있을 경우 Selection 프로세스 재실행

     

    3) 데이터 변환 (Transformation)

    - 목적에 맞게 변수생성, 선택하고 데이터 차원 축소

    - 프로세스 진행을 위해 학습용 데이터(training data)와 검증용데이터(test data)로 데이터 분리

     

    4) 데이터 마이닝 (Data Mining)

    - 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴찾기, 데이터 분류, 예측작업

    - 필요에 따라 데이터 전처리와 변환 프로세스를 추가 실행

     

    5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation)

    - 분석 결과에 대한 해석/평가, 분석 목적과의 일치성 확인

    - 발견된 지식을 업무에 활용

     

     

    References

    [1] http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/1_kdd.html

    댓글

    Designed by JB FACTORY