데이터베이스 클러스터의 개요 개념 - 데이터를 통합할 때 성능 향상과 가용성을 높이기 위해 DB 차원의 파티셔닝(Partitioning) 또는 클러스터링(Clustering)을 이용한다. - 파티셔닝은 용량이 큰 테이블이나 인덱스를 관리하기 쉬운 단위로 분리하는 방법이다 - 클러스터링은 동일한 성격의 데이터를 동일한 데이터 블록에 저장하는 방법으로, 자주 같이 사용되는 데이터를 같은 위치에 저장시키는 기법이다. 장점 - 파티션 사이의 병렬 처리를 통해 빠른 검색 및 처리 성능 얻음 - 성능의 선형적인 증가 효과 - 특정 파티션의 장애가 발생하더라도 서비스가 중단되지 않는 고가용성(High Availability, HA) 확보 파티셔닝의 종류 파티셔닝은 DB 구성 형태에 따라 단일 서버 내의 파티셔닝과 다..
이번 포스팅은 DBSCAN 클러스터링을 구현하는 내용이며, DBSCAN에 대해서 이해를 하고 싶을 경우 이전에 작성한 포스팅을 참고하면 좋을 것 같다. DBSCAN clustering 이해하기 DBSCAN의 개념 DBSCAN은 Density-Based Spatial Clustering of Applications with Noise의 약자로, 한국말로 풀이하면 노이즈를 적용한 밀도 기반 공간 클러스터링이라고 해석할 수 있다. 한마디로 Density-Based.. needjarvis.tistory.com 본 포스팅에 있는 코드는 IBM의 코세라(coursera) 강의 내용과 사이킷런의 데모 페이지의 코드를 섞어서 만든 예제이다. DBSCAN 클러스터링 예제 라이브러리 import numpy as np fr..
K-means 자체에 대해서 아직 이해가 부족하신 분은 예전 포스팅에 자세히 적은 것이 있기 때문에 이전 포스팅을 먼저 보면 될 것 같으며 아래 링크를 확인하면 된다. 클러스터링(Clustering)을 통한 데이터 분류기법, K-평균(K-Means) 알고리즘 K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으 needjarvis.tistory.com K-means를 알고 계신 분들에게 다시 한번 간단히 상기시키면 다음과 같은 순서로 클러스터링이 작동된다. 중심점인 K를 지정한 후, 이 값은 무작위의 좌표값으로 시작된다. 데이터 요소들과 무작위의 중..
K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으로, 컴퓨터 스스로 어떠한 해답을 찾아내는 것을 말한다. 예를 들어, 남자와 여자를 분류하고 싶다라는 것은 이미 목적이 존재하고 값이 존재하기 때문에 비지도학습이 될수 없지만 컴퓨터 스스로 데이터를 분류하다가 남자와 여자의 특성 차이를 깨닫고 분류했다면, 비지도학습이 되는 것이다. K-Means는 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다. 다음 수행에서는 좀 더 중심에 위치한 중심값을 선정하고, 분류하고 이러한 과정을 반복하여 더이상 분류가 되지 않을 경우에 해당..