본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다. 빅테이터 분석 방법론 빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성 Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제 Task (태스크) : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 Step (스텝) : WBS(Wor..
본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다. CRISP-DM 데이터 마이닝 방법론 CRISP-DM(Cross Industry Standard Process for Data Mining)은 데이터 마이닝 전문가가 사용하는 일반적인 접근 방식을 설명한 가장 널리 사용되는 공개 표준 분석 모델입니다. 2015년 IBM은 CRISP-DM을 개선하고 확장하는 데이터 마이닝 / 예측 분석을 위한 분석 솔루션 통합 방법(ASUM-DM)이라는 새로운 방법론을 발표하기도 했습니다. 이 방법론은 1996년에 유럽연합의 ESPRIT..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 2과목 1장 1절 '분석기획 방향성 도출'에 관련된 내용을 요약하고 설명한 내용입니다. 분석기획의 특징 분석기획 - 분석을 수행하기 전에 수행할 과제를 정의하고, 의도한 결과를 도출하기 위해 적절히 관리할 수 있는 방안을 사전에 계획하는 작업 분석기획 역할 (단기) 분석과제 발굴 -> 분석 과제의 목표를 달성하기 위한 요건 정의 (데이터 분석 모델, IT 솔루션 정의 등) (중장기) 마스터플랜 수립 -> 분석 과제 수행을 위한 분석 지원 거버넌스 체제 도출 데이터 사이언티스트의 역량 - 수학/통계학적 지식 및 IT기술 뿐만 아니라, 비즈니스에 대한 이해와 전문성을 가지고 있어야 하는 3가지 영역에 대한 고..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 1과목 3장 3절 '빅데이터 그리고 데이터 사이언스의 미래'에 관련된 내용을 요약하고 설명한 내용입니다. 빅데이터의 시대 - 디지털 환경으로 엄청난 'Big' 데이터가 생성되고 있음- 빅데이터 분석은 선거 결과(ex: 오바마의 빅데이터 사례)에 영향을 미칠 수도 있으며, 기업 입장에서는 비용 절감, 신규 서비스, 의사 결정 지원 등 상당한 가치 발휘 빅데이터 회의론을 넘어 가치 패러다임의 변화 가치 패러다임 변화는 크게 3단계로 구분 디지털화(Digitalization) 디지털화를 이끈 빌게이츠(Bill Gates) - 아날로그의 세상을 어떻게 효과적으로 디지털화 하는가각 이 시대의 가치를 창출해 내는 원..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 1과목 3장 2절 '전략 인사이트 도출을 위한 필요 역량'에 관련된 내용을 요약하고 설명한 내용입니다. 데이터 사이언스의 의미와 역할 의미- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 해커의 사고방식, 데이터 시각화, 도메인에 특화된 전문 지식을 모두 포함하는 종합 학문- 다양한 유형(정형/비정형)의 데이터를 대상으로 분석 및 효과적으로 전달하고 구현하는 과정까지를 포함하는 학문 역할- 비즈니스의 성과를 좌우하고 핵심이슈에 답을 하며 사업의 성과를 견인해야 함 링크드인의 당신이 알 수도 있는 사람(People You May Know) 데이터 사이언스의 대표적인 사례로 링크드인(LinkedIn)의 당신이 ..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 1과목 3장 1절 '빅데이터 분석과 전략 인사이트'에 관련된 내용을 요약하고 설명한 내용입니다. 빅데이터 열풍과 회의론 빅데이터의 거품 현상을 우려하는 시선이 존재회의론으로 인해서 분석에서 찾을 수 있는 수많은 가치들을 발굴하지 못하고 활용 자체를 사전에 차단해 버릴 수 있음 빅데이터 회의론의 원인 및 진단 투자 효과를 거두지 못했던 과거의 CRM(고객관계관리)와 같은 프로젝트들빅데이터의 성공 사례라고 하는 것들이 실제 빅데이터가 아닌 단순 데이터 분석 프로젝트인 경우가 많았음 참고로, 한때 CRM만 구축하면 모든 문제들이 해결이 된다라는 붐이 일어난 적이 있었다. 하지만 대다수 프로젝트들은 큰 돈으로 C..
IRIS 데이터 인공지능을 하는 사람이면 가장 자주 보는 범용적인 데이터 셋의 2개가 있는데 하나는 손글씨 이미지 집합들인 MNIST이고, 분류 문제를 하는 간단하고 쉬운 데이터 집합으로 IRIS가 존재한다. IRIS하면 아무래도 드라마를 생각하거나 인간의 홍채를 생각할 수 있는데 인공지능에서 사용하는 이 데이터셋은 특정 꽃을 뜻한다. 이 꽃이 아이리스(한글명 붓꽃)이다 IRIS 데이터는 데이터프레임으로 구성되어 있으며 매우 심플하고, 사이즈가 작기 때문에 알고리즘을 이해하기가 상당히 쉽다. 다만 데이터가 작기 때문에 딥러닝과 같이 데이터 많을수록 유리한 알고리즘에서는 검증하기가 애매한 면이 있긴 하다. IRIS 데이터셋 구조 R에서는 IRIS 데이터가 내장이 되어 있어서 별도로 호출을 할 필요가 없다...
매트릭스와의 차이점 데이터 프레임에 배우기에 앞서 같은 2차원 데이터 주고인 매트릭스와의 차이점을 다시 한번 상기해보도록 하겠다. 매트릭스동일한 데이터 구조만 허용 데이터 프레임다양한 데이터 구조의 허용 데이터 프레임은 쉽게 엑셀을 머리속에서 떠올리면 된다. 엑셀에서 우리가 열에 저마다 다른 타입의 데이터를 넣을 수 있다. 번호이름 키 몸무게 1 홍길동 180 70 2 고길동 170 70 3 둘리 150 60 4 또치 150 50 위와 같은 숫자, 문자형 등이 섞여 있는 2차원 데이터 구조가 데이터 프레임이며, 매트릭스는 숫자 혹은 문자형 등의 한가지 타입으로만 통일되어 있는 차이가 있다. 데이터 프레임 생성 위의 테이블 예제를 토대로 데이터 프레임을 생성해보도록 하자 > numbers numbers[1..
2차원 데이터 앞서, 벡터(Vector)에 관련된 포스팅을 길게 썼는데 벡터는 1차원 데이터 구조이다. 벡터를 사용하는 경우도 많이 존재하지만, 사실상 벡터보다는 2차원 데이터를 더 많이 사용하게 된다. 우리가 흔히 사용하는 엑셀(Excel)만 하더라도 행만 사용하는 경우는 단순히 계산하기 위해서 데이터를 넣는 정도를 제외하면 없다고 봐도 무방할 정도이다. 이번편은 2차원 데이터의 가장 기본적인 매트릭스(Matrix) 명령어를 사용해보고, 다음 포스팅에는 본격적으로 가장 많이 사용하게 될 데이터 프레임(Data.Frame)에 대해서 포스팅 하고자 한다. Matrix와 Data.Frame의 차이 우선 본격적으로 매트릭스에 대한 설명에 앞서 매트릭스와 데이터프레임에 대한 차이를 설명한다면, Matrix를 데..
위기 요인 빅데이터의 시대가 진행되면서 사생활 침해, 책임원칙 훼손, 데이터 오용등의 어두운면 있음 사생활 침해- M2M(Machine to Machine), IoT(Internet of Things) 시대가 본격화 되면서 정보 수집 센서들의 수가 늘어나고 있음- 개인 정보의 가치 증대로 많은 기업이 개인정보 습득에 많은 자원 투자- 사생활 침해 방지를 위해 익명화(anonymization) 기술이 발전하나 충분하지 못하는 의견 다수- 2013년 정치 스캔들인 미국 NSA(National Security Agency)의 이메일, 전화통화, 문자메시지 등을 수집, 저장한 사건은 대표적인 정부의 사생활 침해 사건 NSA의 개인 정보 수집에 대한 고발이 담긴 실화를 기반으로 한 영화, 스노든(Snowden) ..
빅데이터의 가치 빅데이터 시대에서는 데이터의 활용 방식과 가치창출 방식, 분석 기술의 발전 때문에 데이터 가치 측정이 쉽지 않음 데이터 활용 방식- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없기에 가치 산정하는 것이 어려워짐- 데이터 재사용은 1차 목적뿐 아니라 2차, 3차적 목적으로도 사용 가능- 데이터의 다목적용의 경우 CCTV의 데이터는 절도범을 구별할 수 있으며, 구매 정보도 동시에 얻을 수 있음 새로운 가치 창출- 빅데이터 시대에는 데이터가 기존에 없는 가치를 창출하기에 가치 측정이 어려움 분석 기술의 발전- 클라우드 분산 컴퓨팅으로 저렴한 분석이 가능해지면서 기존에 분석하지 못한 것들을 분석할 수 있고 점점 활용도가 증가하고..
빅데이터(bigdata)의 정의 맥킨지(McKinsey, 2011)- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC, 2011- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 빅데이터 관심이 확대되면서, 인재나 조직까지도 빅데이터라는 개념에 포함시킬 것을 제안하기도 함(노무라 연구소) 메이어-쇤베르거와쿠키어(Mayer-Schonberger&Cukier, 2013)- 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등..