1. ETL의 개요 가. ETL의 개념 - ETL은 Extraction, Transformation and Load의 약어로 이뤄졌으며 데이터 이동과 변환 절차에 관련된 업계 표준 용어 - 데이터 웨어하우스(DW, Data Warehouse), 운영 데이터 스토어(ODS, Operation Data Store), 데이터 마트(DW, Data Mart)에 대한 데이터 적재 작업의 핵심 구성요소 - 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)등 폭넓게 활용 - ETL을 위한 여러 상용 소프트웨어가 있으며, 일괄(Batch) ETL과 실시간(Real Time) ETL로 구분됨 나. ETL의 3가..
1. 분석 마스터 플랜 수립 프레임워크 - 중장기적 관점의 마스터 플랜 수립을 위해 분석 과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성 등 다양한 기준을 고려해 우선순위 설정 - 종합적으로 고려하여 데이터 분석을 실행하기 위한 로드맵 수립 - 분석 마스터 플랜은 정보전략계획(ISP, Information Strategy Planning)을 활용하되 데이터 분석의 특성을 고려하여 계획 수립 ISP 참고 기업의 정보화 전략계획, ISP ISP라는 단어는 인터넷 시장에서 주로 쓰이는 Internet Service Provider라는 말로 보통 인식하지만, 정보화 프로젝트를 구축하고 계획하고, 설계하는 사람들에게는 Information Strategic Planning이라는..
안방에는 구글 크롬캐스트가 내장되어 있는 TV가 있어서 유튜브(Youtube)나 넷플릭스(Netflix)를 보는데 문제가 없지만, 거실에 있는 TV는 BTV랑 연결되어 있고 크롬캐스트가 내장된 것이 아니다보니 여간 불편한게 아니었다. TV를 예능 프로그램 일부를 제외하고 워낙 잘 보지 않다보니, 유튜브 프리미엄과 넷플릭스로만 하루를 생활하고 있었는데 이로 인해서 거실의 TV는 방치해 놓은 상태가 되어버렸다. BTV가 언제쯤 LG유플러스처럼 넷플릭스를 지원할까? 생각만하고 있었는데 넷플릭스랑 사이가 워낙 안 좋다보니, 최근에는 아주 작정하고 애플TV를 밀어주려고 하는 것 같았다. 하지만 컨텐츠가 워낙 부족하여 애플TV는 생각도 않다가 최근 들어서 무슨 바람이 들었는데 애플TV로 유튜브랑 넷플릭스나 볼까?라..
상관관계 이해 일단 피어슨 상관관계를 이해하기 위해서, 간단히 상관관계에 대해서 알아보도록 해보자. 대표적으로 상관관계를 이해할 땐 키와 몸무게의 데이터를 활용하곤 한다. 인간은 키가 커지면, 몸무게 또한 커지기 마련인데 이처럼 두 값이 같은 방향으로 커지는 것을 양의 상관관계라고 한다. 반대로 음의 상관관계는 값이 커지면 다른 값이 작아지는 경우를 뜻하는데 술을 많이 마신다던가, 담배를 많이 필경우 기대 수명이 줄어드는 경우가 있는데 이렇게 두 값이 같은 방향으로 가지 않으면 음의 상관관계라고 한다. 위 그림을 보면, r이 1에 가까울수록 우상향의 선형 모양이 나오게 되며, r이 -1에 가까울수록 우하향의 선형 모양이 나오게 된다. 그리고 0에 가까울 경우 완전히 패턴을 찾기 힘든 모습이 나오게 되는데..
이번 포스팅은 DBSCAN 클러스터링을 구현하는 내용이며, DBSCAN에 대해서 이해를 하고 싶을 경우 이전에 작성한 포스팅을 참고하면 좋을 것 같다. DBSCAN clustering 이해하기 DBSCAN의 개념 DBSCAN은 Density-Based Spatial Clustering of Applications with Noise의 약자로, 한국말로 풀이하면 노이즈를 적용한 밀도 기반 공간 클러스터링이라고 해석할 수 있다. 한마디로 Density-Based.. needjarvis.tistory.com 본 포스팅에 있는 코드는 IBM의 코세라(coursera) 강의 내용과 사이킷런의 데모 페이지의 코드를 섞어서 만든 예제이다. DBSCAN 클러스터링 예제 라이브러리 import numpy as np fr..
DBSCAN의 개념 DBSCAN은 Density-Based Spatial Clustering of Applications with Noise의 약자로, 한국말로 풀이하면 노이즈를 적용한 밀도 기반 공간 클러스터링이라고 해석할 수 있다. 한마디로 Density-Based 알고리즘이기 때문에, "밀도 기반"으로 클러스터링을 하게 된다는 의미이다. K-Means의 문제점 DBSCAN을 이해하기에 앞서, 대표적인 클러스터 알고리즘인 K-Means을 떠올려보자. K-Means은 이상치(outlier)가 있어도 이상치 값을 이해 할 수 없으며, 이상치가 심지어 K-Means를 자신의 주변으로 끌고 와서 centroid값을 바꿔버릴 수 있다. 이는 클러스터의 품질을 심하게 망칠 수 있는 critical risk이다...
K-means 자체에 대해서 아직 이해가 부족하신 분은 예전 포스팅에 자세히 적은 것이 있기 때문에 이전 포스팅을 먼저 보면 될 것 같으며 아래 링크를 확인하면 된다. 클러스터링(Clustering)을 통한 데이터 분류기법, K-평균(K-Means) 알고리즘 K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으 needjarvis.tistory.com K-means를 알고 계신 분들에게 다시 한번 간단히 상기시키면 다음과 같은 순서로 클러스터링이 작동된다. 중심점인 K를 지정한 후, 이 값은 무작위의 좌표값으로 시작된다. 데이터 요소들과 무작위의 중..
정보이득(Information Gain) 개념 정보 이득(Information Gain)은 결정 트리(Decision Tree)에서 엔트로피(Entropy)를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값이다. 결정 트리에서 다양한 노드를 만들고 엔트로피를 구했다면 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성하게 되기에 엔트로피와 정보 이득은 같이 움직인다 생각하면 된다. 엔트로피 정보 이득에 설명에 사용한 데이터는 이전 엔트로피 계산에 사용한 데이터이며, 엔트로피에 대한 포스팅을 읽고 이 내용을 읽으면 좀 더 이해하기 편할 것 같다. [데이터분석] 엔트로피(Entropy) 이해하기 보통 엔트로피라 하면 과학 분야에서 많이 쓰이는 말이지만, 통계학 혹은 데이터 분석쪽에..
내 컴퓨터 방은 구조가 특이해서, 일자로 길게 낼수가 없기 때문에 2인용 컴퓨터 테이블을 1인용 테이블을 2개 사서 붙여놨다. 그러다보니 듀얼 모니터를 사용할수가 없어서 상당히 답답했었다. 예를 들어, 재택근무를 할 때 가상환경에서 작업을 할 때 인터넷을 검색하기가 힘들고, 모니터링 환경을 만들기가 힘들기도 하고 아무튼 여러가지 문제점이 많았다. 그래서 엄청 긴 모니터를 사서, 듀얼모니터의 효과를 누릴까 고민을 했었는데 어느날 예전회사에서 USB 모니터를 가지고 다녔던 직원이 생각이 났었다. 이 직원은 프로젝트를 나갈 때 자신의 USB 모니터를 들고 와서 한대 더 확장을 해서 가지고 다녔고, 해당 모니터는 세로형 모니터라서 모니터링 보기가 상당히 좋았다. 그래서, USB 모니터를 쿠팡에서 검색을 해봤는데..