KDD 분석 방법론 , ADsP #15
- IT 자격증/데이터 분석 준전문가(ADsP)
- 2020. 4. 7.
1. KDD(Knowledge Discovery in Databases)의 개요
- KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스
- 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조
Fayyad 박사
- 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시
9개의 프로세스
- 분석 대상 비즈니스 도메인의 이해
- 분석 대상 데이터셋 선택과 생성
- 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier) 등을 제거하는 정제작업이나 선처리
- 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경
- 분석 목적에 맞는 데이터 마이닝 기법 선택
- 분석 목적에 맞는 데이터 마이밍 알고리즘 선택
- 데이터 마이닝 시행
- 데이터 마이닝 결과에 대한 해석
- 데이터 마이닝에서 발견된 지식 활용
KDD 분석 절차 (5가지 프로세스)
1) 데이터셋 선택 (Selection)
- 선택에 앞서 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수
- 목표데이터(target data)를 구성하여 분석 활용
2) 데이터 전처리 (Preprocessing)
- 잡음(Noise), 이상치(Outliner), 결측치(Missing Value) 등을 제거
- 추가로 요구되는 데이터 셋이 있을 경우 Selection 프로세스 재실행
3) 데이터 변환 (Transformation)
- 목적에 맞게 변수생성, 선택하고 데이터 차원 축소
- 프로세스 진행을 위해 학습용 데이터(training data)와 검증용데이터(test data)로 데이터 분리
4) 데이터 마이닝 (Data Mining)
- 분석 목적에 맞는 데이터 마이닝 기법, 알고리즘 선택, 패턴찾기, 데이터 분류, 예측작업
- 필요에 따라 데이터 전처리와 변환 프로세스를 추가 실행
5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation)
- 분석 결과에 대한 해석/평가, 분석 목적과의 일치성 확인
- 발견된 지식을 업무에 활용
References
[1] http://www2.cs.uregina.ca/~dbd/cs831/notes/kdd/1_kdd.html
'IT 자격증 > 데이터 분석 준전문가(ADsP)' 카테고리의 다른 글
빅데이터 분석 방법론 , ADsP #17 (0) | 2020.04.12 |
---|---|
CRISP-DM 분석 방법론 , ADsP #16 (0) | 2020.04.12 |
분석 방법론과 업무 특성에 따른 모델 , ADP/ADsP #14 (0) | 2020.04.07 |
2과목 1장 분석기획 방향성 도출, ADsP 요약 및 설명 #13 (0) | 2020.04.06 |
1과목 3장 빅데이터와 데이터 사이언스의 미래, ADP 요약 및 설명 #12 (0) | 2020.03.17 |