해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 1과목 2장 5절 '미래의 빅데이터'에 관련된 내용을 요약하고 설명한 내용입니다. 빅데이터(Bigdata) 활용의 3요소 데이터- 모든 것을 데이터화(Datafication)하는 추세로 목적없이 축적된 데이터를 통한 창의적인 분석이 가능해지기에 새로운 가치로 부상 기술- 데이터를 보다 빠르게 처리하기 위해 알고리즘의 진화와 함께 스스로 학습하고 데이터를 처리할 수 있는 인공지능(AI, Artificial Intelligent) 기술 출현, 진화 가속화 인력- 빅데이터를 처리하기 위한 데이터 사이언티스트(Data scientist)와 알고리즈미스트(Algorithmist)의 역할을 통해 다각적 분석을 통한 ..
위기 요인 빅데이터의 시대가 진행되면서 사생활 침해, 책임원칙 훼손, 데이터 오용등의 어두운면 있음 사생활 침해- M2M(Machine to Machine), IoT(Internet of Things) 시대가 본격화 되면서 정보 수집 센서들의 수가 늘어나고 있음- 개인 정보의 가치 증대로 많은 기업이 개인정보 습득에 많은 자원 투자- 사생활 침해 방지를 위해 익명화(anonymization) 기술이 발전하나 충분하지 못하는 의견 다수- 2013년 정치 스캔들인 미국 NSA(National Security Agency)의 이메일, 전화통화, 문자메시지 등을 수집, 저장한 사건은 대표적인 정부의 사생활 침해 사건 NSA의 개인 정보 수집에 대한 고발이 담긴 실화를 기반으로 한 영화, 스노든(Snowden) ..
빅데이터의 가치 빅데이터 시대에서는 데이터의 활용 방식과 가치창출 방식, 분석 기술의 발전 때문에 데이터 가치 측정이 쉽지 않음 데이터 활용 방식- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없기에 가치 산정하는 것이 어려워짐- 데이터 재사용은 1차 목적뿐 아니라 2차, 3차적 목적으로도 사용 가능- 데이터의 다목적용의 경우 CCTV의 데이터는 절도범을 구별할 수 있으며, 구매 정보도 동시에 얻을 수 있음 새로운 가치 창출- 빅데이터 시대에는 데이터가 기존에 없는 가치를 창출하기에 가치 측정이 어려움 분석 기술의 발전- 클라우드 분산 컴퓨팅으로 저렴한 분석이 가능해지면서 기존에 분석하지 못한 것들을 분석할 수 있고 점점 활용도가 증가하고..
빅데이터(bigdata)의 정의 맥킨지(McKinsey, 2011)- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC, 2011- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 빅데이터 관심이 확대되면서, 인재나 조직까지도 빅데이터라는 개념에 포함시킬 것을 제안하기도 함(노무라 연구소) 메이어-쇤베르거와쿠키어(Mayer-Schonberger&Cukier, 2013)- 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등..
사회기반구조의 데이터베이스 1990년대 사회의 전 부분의 정보화가 정부부처 중심으로 무역, 통관, 물류, 조세, 국세, 조달 등 사회간접자본(Social Overhead Capital, SOC) 차원에서 전자문서교환(Electronic Data Interchange, EDI) 활용이 본격화되고 부가가치통신망(Value Added Network, VAN)을 통한 정보망이 구축되기 시작하였다. 1995년 조세전산망, 1996년 조달,국방,물류종합망,의료정보망,산업정보망이 착수되었으며 중공업이나 유통 분야를 중심으로 빠르게 확산되었다. 2000년대에는 지리, 교통부문의 데이터베이스(Database)는 보다 고도화되었고, 의료,교육,행정 등 사회 각 부문으로 공공 DB의 구축 이용이 확대되었다. 분야별 사회기반..
정보통신망 구축 가속화로 1990년대부터 기업내부 데이터베이스(인하우스 DB)에 기업의 모든 자료를 연계하며 경영 활동의 기반이 되는 전사 시스템으로 확대하였다. 1990년 중반 이전에는 정보의 수집과 공유를 위한 MIS(경영정보시스템), 생산자동화, 통합자동화 등 즉 OLTP(Online Transaction Processing)의 주축이 되었다면, 이후에는 수집에서 벗어나 분석이 중심이 되는 OLAP(Online Analytical Processing) 시스템 구축을 하게 되었다. 참고로 OLTP는 실시간성과 트랜잭션 처리, 데이터 하나하나가 중요한 핵심 시스템이라 한다면 OLAP은 통계와 분석 등을 위해서 만들어진 DB아키텍쳐이다. DB를 설계할 때 테이블에 설정을 하게 되는데 해당 테이블이 트랜잭..
데이터베이스의 용어의 등장 연혁을 왜 이해해야 하며, 다양한 기관에서 정의한 데이터베이스의 정의들을 왜 외워야 하는지 1도 모르겠지만, 기출문제 등에서 저런 쓰잘대기 없는 내용들이 출제되니 지루하더라도 년도랑 어떤 기관에서 저런 말을 했는지 외우도록 해보자. 마지막 데이터베이스의 다양한 측면의 특징은 정말 가관인 것 같다. 저정도를 모르는 사람이 공부를 한다고 하여 ADP와 같은 고급 자격증을 주는 것이 말이나 되는건지.. 데이터베이스의 용어의 등장 해외 1950년대 미국 정부의 자국 군대의 군비 상황을 집중 관리하기 위해서 컴퓨터를 활용한 도서관의 개념으로 등장, 데이터의 기지(Base)라는 뜻의 의미 1963년 6월 미국 SDC(System Development Corporation)에서 개최한 "컴..
지식의 피라미드(DIWK Pyramid), DIKW 피라미드, DIKW 계층도(hierarchy), 데이터 피라미드 등은 다 같은 의미로 지식의 변화과정을 잘 나타내주는 모형 혹은 모델이다. 지식은 데이터(Data) -> 정보(Information) -> 지식(Knowledge) -> 지혜(Wisdom) 과정으로 진화를 할 수 있게 되며 각각의 의미는 다음과 같다. 데이터(Data) 데이터는 단순한 사실을 말한다. 예를 들어, A라는 사람의 나이는 35세이다. 서울의 버스 기본요금은 1200원이다 같은 주관적인 것이 배제된 사실을 뜻한다. '서울의 버스 기본요금'은 데이터가 아니라 정보의 영역이다라고 말하는 사람이 있을 수 있겠지만, 이러한 RAW성 데이터를 조합하여, 다음 단계로 갈 수 있으며, 어떠한..
한국 데이터베이스 진흥원(DBguide)은 좀 공부하는 사람들을 생각해서, 전자북을 개방하든 DAP(데이터 아키텍처 전문가)나 SQLP(SQL 전문가)와 같이 사이트에서 공개를 한 것처럼 ADP(데이터분석 전문가)혹은 ADsP(데이터분석 준전문가) 교재도 좀 공개를 했으면 좋겠다. 출퇴근에 약 1000 page나 되는 것들을 갖고 다닐수도 없는 노릇인데 1000페이지 가까이 되는 책을 전자북이나 요약북 등을 제공하지 않는다는 것은 오로지 공부는 네 집에의 책상에서만 하라는 것과 같을 것이다. 누구는 이동하면서 보고도 싶고, 간편하게 컴퓨터로도 보고 싶은데 시대에 역행하는 DBGuide를 보면 할말이 없다. 다른 사람들도 힘들거라 생각해서, 어느정도 내용을 요약하거나 보충하는 부분들을 사이트에 정리할까 한..
제 1편 빅데이터 분석 기획 방법론 제 1장 빅데이터분석의 개요 1. 빅데이터의 개념- 기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석의 역량을 넘는 대량의 정형 또는 비정형 데이터 세트 및 결과를 분석하는 기술(위키피디아)- 3V : Volume(규모) + Variety(다양성) + 속도(Velocity)- 3V + @Complexity(복잡성)- 데이터 그 자체뿐 아니라 데이터에 대한 분석을 포함- 빅데이터의 핵심은 분석, 결론적으로 분석기반 과학적 의사결정의 원료 책에서는 4V가 안나왔는데 정확성까지 포함하여, 4V 라고도 불리운다. 정확성(veracity) : 데이터의 불확실성. 정확성은 일정 유형의 데이터에 부여할 수 있는 신뢰수준을 의미한다. 높은 데이터 품질을 유지하는 것은 빅..
1. 데이터 모델링 정의 가. 데이터 모델링 탄생 배경 - 배치 프로세스에서 태동한 프로세스 중심의 데이터 관리 기법(구조적 방법론)에 의한 정보의 고립화 현상으로 정보시스템 유지 관리하는데 막대한 비용 투자 - 데이터(정보)를 중복없이 정확하게 유지 관리할 수 있을까에 대한 근본적인 안 제시 - 정확한 업무 파악이 선결되야 한다는 결론 도달, 이러한 환경에서는 관계형 DB나 개체 관계 모델링 기법(ERD)이 중요 나. 모델 정의 - 어떤 대상을 의미하는 포괄적 의미 - 데이터 모델은 현실 세계에 대해 우리가 관심있어 하는 대상을 DB화 하기 위한 개념적 도구 다. 모델링 정의 - 실체를 나타내는 일과 모형화라는 의미로 해석, 사용자의 요구사항으로부터 데이터의 실체를 나타내는 일 - 현실 세계의 추상화된..
1-3-1 전사아키텍처 관리 체계 1. 전사아키텍처 관리 체계 개요 가. 전사아키텍처 관리 체계 개념 - 전사아키텍처를 유지 관리하기 위한 조직과 프로세스 측면의 기반을 구축하는 것 - IT 기획에서 서비스 제공에 이르는 모든 과정에서 EA 정보를 활용하여 의사결정이 이루어짐 - EA 관리 체계는 EA 관리 조직, EA 관리 프로세스, EA 관리 인력을 포함 IT 관리 체계와 EA 관리 체계 - IT 관리 체계는 'IT 거버넌스'라고도 하고, EA 관리 체계는 마찬가지로 'EA 거버넌스' 라고도 한다 나. 전사아키텍처 관리 체계 구축 방향 - EA 간 통합성(복수 기관 간) 과 EA 내의 통합성(단일 기업내 영역 간) 확보 필요 - 장기접 접근 필요, 장기간의 효과 중시 관리체계 구축 고려사항조직 체계,..