클러스터링(Clustering)을 통한 데이터 분류기법, K-평균(K-Means) 알고리즘
K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으로, 컴퓨터 스스로 어떠한 해답을 찾아내는 것을 말한다. 예를 들어, 남자와 여자를 분류하고 싶다라는 것은 이미 목적이 존재하고 값이 존재하기 때문에 비지도학습이 될수 없지만 컴퓨터 스스로 데이터를 분류하다가 남자와 여자의 특성 차이를 깨닫고 분류했다면, 비지도학습이 되는 것이다.
K-Means는 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다. 다음 수행에서는 좀 더 중심에 위치한 중심값을 선정하고, 분류하고 이러한 과정을 반복하여 더이상 분류가 되지 않을 경우에 해당 작업을 종료하게 된다.
1. 클러스터링을 통한 데이터 분류 기법, K-Means 알고리즘의 개요
가. K-Means 알고리즘의 개념
- 모집단 또는 범주에 대한 사전 정보가 없는 경우 주어진 관측 값들 사이의 거리 또는 유사성을 이용하는 분석법
- 전체 데이터를 몇 개의 집단으로 그룹화하여 각 집단의 성격을 파악함으로써 데이터 전체의 구조에 대한 이해를 돕고자 하는 분석법
- 데이터를(Training Set)을 기준점(Code-Vector)을 중심으로 Euclidean 거리가 최소가 되도록 K개의 묶음으로 군집(Clustering)하여 분류하는 데이터 마이닝 기법
- 주어진 데이터를 사전 정의된 k 개의 클러스터로 묶는 알고리즘, 각 클러스터와 거리차이의 분산을 최소화하는 방식으로 동작
- 군집(Clustering) 별 중심 값에서 중심과의 거리를 기반으로 데이터를 분류하는 군집분석 기법
- 입력 값으로 K를 취하고 군집 내 유사성은 높게, 군집간 유사성은 낮게 되도록 N 개의 객체집합을 K 개의 군집으로 군집하는 기법
나. K-Means 알고리즘의 특징
- 거리기반 분류 : 중심점과의 유클리디안 거리 최소화
- 반복 작업 : 초기의 잘못된 병합을 알고리즘을 반복 수행하여 회복
- 짧은 계산시간 : 간단한 알고리즘이며, 대규모 적용 가능
- 탐색적 기법 : 주어진 자료에 대한 사전정보 없이 의미 있는 자료구조를 찾아낼 수 있음
2. K-Means 알고리즘의 수행절차
- 군집의 수 K를 정의 및 초기 K개 군집의 중심(Centroid) 선택
- 각 관측 값들을 가장 가까운 중심의 군집에 할당
- 새로운 군집의 중심 계산
- 재정의 된 중심값 기준으로 다시 거리기반의 군집 재분류, 경계가 변경되지 않으면 종료
3. K-Means 알고리즘의 장단점 및 활용 분야
가. K-Means 알고리즘의 장단점
1) 장점
탐색적인 기법
- 군집분석은 그 자체가 대용량 데이터에 대한 탐색적 인 기법으로서, 주어진 데이터의 내부구조에 대한 사 전적인 정보 없이 의미 있는 자료구조를 찾아낼 수 있는 방법
다양한 형태의 데이터에 적용 가능
- 분석을 위해서는 기본적으로 관찰치 간의 거리를 데 이터형태에 맞게만 정의하면, 거의 모든 형태의 데이 터에 대하여 적용이 가능한 방법
분석방법의 적용 용이성
- 대부분의 군집방법이 분석대상 데이터에 대해 사전정 보를 거의 요구하지 않음 적용 유리 즉, 모형화를 위한 분석과 같이 사전에 특정 변수에 대한 역할 정의가 필요하지 않고 다만 관찰치 들 사 이의 거리만이 분석에 필요한 입력자료로 사용.
2) 단점
가중치와 거리 정의
- 군집분석의 결과는 관찰치 사이의 비 유사성인 거리 또는 유사성을 어떻게 정의하느냐에 따라 크게 좌우, 따라서 관찰치 들 사이의 거리를 정의하고 각 변수에 대한 가중치를 결정하는 것은 매우 어려운 문제다
초기 군집수의 결정
- k-평균 군집분석에서는 사전에 정의된 군집수를 기준 으로 동일한 수의 군집을 찾게 되므로 만일 군집수 k 가 원 데이터구조에 적합하지 않으면 좋은 결과를 얻을 수 없음
결과해석의 어려움
- 탐색적인 분석방법으로의 장점을 가지고 있는 반면에 사전에 주어진 목적이 없으므로 결과를 해석하는데 있어서 어려움 존재
나. K-Means 알고리즘의 활용 분야
- Data Mining에서 데이터 분류 및 군집 알고리즘으로 활용
- 트랜드 또는 성향이 불분명한 시장을 분석하는 경우
- 시장과 고객 분석, 패턴인식, 공간데이터 분석, Text Mining 등
- 최근에는 패턴인식, 음성인식의 기본 알고리즘으로 활용
- 개체가 불규칙적이고, 개체간 관련성을 정확히 알 수 없는 분류 초기 단계
※ 참고자료
실습 포스팅