데이터마이닝(Data Mining) 이란?
1. 데이터 마이닝
데이터 분석, 즉 데이터 마이닝은 Mining 이라는 단어에서 알 수 있듯이, DATA에서 의미를 추출, 캐는 작업을 뜻한다. 좀 더 쉽게 풀이하자면 데이터 안에서 통계적 규칙이나 패턴등을 찾는 행위 및 도구, 기법등을 뜻한다.
빅데이터가 단순히 테라 이상급의 DATA만을 의미하는 것이 아닌 데이터 마이닝도 행위만을 뜻하는 것은 아니다.
위 그림을 보면, 알겠지만 0,1의 Digit들을 정제하여 의미를 찾아내는 것이라고 이해하면 된다.
2. 데이터 마이닝의 절차
데이터마이닝의 일반적인 절차는 우선 데이터를 선택하고, 정제한다.
정제된 데이터를 특정 형태로 변형을 한 후, 데이터 마이닝을 거치고 해석을 하는 단계까지 이어지는 비교적 단순한 과정이다. 이를 실생활로 이해를 해보도록 하자.
어느 시장에서 장바구니에 있는 물건들을 기준으로 상품을 배치할려고 한다.
이럴 경우 마이닝의 과정은 아래와 같다.
선정 : 장바구니의 물건들 (장바구니에 없는 물건들은 대상이 아니다.)
정제 : 한개만 구입한 물건들은 제외한다 (유사성을 알 수 없으므로)
변형 : 장바구니의 값들을 특정 코드값이나 시퀀스 값등으로 변형하고, 하나의 장바구니의 값도 코드화 시킨다. (ex: 홍길동이 산 우유와 치즈를, A0001, MK, CS로 변형)
데이터마이닝 : 변형된 데이터들을 토대로, 유사성등을 분석한다. (ex: 우유와 치즈의 연관성 분석)
지식 : 우유와 치즈는 서로 연관이 있다고 판단하고, 서로 가까이 배치시켜 매출을 올릴 수 있도록 한다.
3. 데이터마이닝을 통해 수행할 수 있는 것들은?
데이터마이닝의 절차를 통해 알 수 있듯이, 너무나도 많은 일들을 할 수가 있다.
- 분류(Classification)
- 추정(Estimation)
- 예측(Prediction)
- 연관성 규칙(Association Rule)
- 군집화(Clustering)
- 프로파일링(Profiling)