IRIS 데이터 인공지능을 하는 사람이면 가장 자주 보는 범용적인 데이터 셋의 2개가 있는데 하나는 손글씨 이미지 집합들인 MNIST이고, 분류 문제를 하는 간단하고 쉬운 데이터 집합으로 IRIS가 존재한다. IRIS하면 아무래도 드라마를 생각하거나 인간의 홍채를 생각할 수 있는데 인공지능에서 사용하는 이 데이터셋은 특정 꽃을 뜻한다. 이 꽃이 아이리스(한글명 붓꽃)이다 IRIS 데이터는 데이터프레임으로 구성되어 있으며 매우 심플하고, 사이즈가 작기 때문에 알고리즘을 이해하기가 상당히 쉽다. 다만 데이터가 작기 때문에 딥러닝과 같이 데이터 많을수록 유리한 알고리즘에서는 검증하기가 애매한 면이 있긴 하다. IRIS 데이터셋 구조 R에서는 IRIS 데이터가 내장이 되어 있어서 별도로 호출을 할 필요가 없다...
매트릭스와의 차이점 데이터 프레임에 배우기에 앞서 같은 2차원 데이터 주고인 매트릭스와의 차이점을 다시 한번 상기해보도록 하겠다. 매트릭스동일한 데이터 구조만 허용 데이터 프레임다양한 데이터 구조의 허용 데이터 프레임은 쉽게 엑셀을 머리속에서 떠올리면 된다. 엑셀에서 우리가 열에 저마다 다른 타입의 데이터를 넣을 수 있다. 번호이름 키 몸무게 1 홍길동 180 70 2 고길동 170 70 3 둘리 150 60 4 또치 150 50 위와 같은 숫자, 문자형 등이 섞여 있는 2차원 데이터 구조가 데이터 프레임이며, 매트릭스는 숫자 혹은 문자형 등의 한가지 타입으로만 통일되어 있는 차이가 있다. 데이터 프레임 생성 위의 테이블 예제를 토대로 데이터 프레임을 생성해보도록 하자 > numbers numbers[1..
2차원 데이터 앞서, 벡터(Vector)에 관련된 포스팅을 길게 썼는데 벡터는 1차원 데이터 구조이다. 벡터를 사용하는 경우도 많이 존재하지만, 사실상 벡터보다는 2차원 데이터를 더 많이 사용하게 된다. 우리가 흔히 사용하는 엑셀(Excel)만 하더라도 행만 사용하는 경우는 단순히 계산하기 위해서 데이터를 넣는 정도를 제외하면 없다고 봐도 무방할 정도이다. 이번편은 2차원 데이터의 가장 기본적인 매트릭스(Matrix) 명령어를 사용해보고, 다음 포스팅에는 본격적으로 가장 많이 사용하게 될 데이터 프레임(Data.Frame)에 대해서 포스팅 하고자 한다. Matrix와 Data.Frame의 차이 우선 본격적으로 매트릭스에 대한 설명에 앞서 매트릭스와 데이터프레임에 대한 차이를 설명한다면, Matrix를 데..
위기 요인 빅데이터의 시대가 진행되면서 사생활 침해, 책임원칙 훼손, 데이터 오용등의 어두운면 있음 사생활 침해- M2M(Machine to Machine), IoT(Internet of Things) 시대가 본격화 되면서 정보 수집 센서들의 수가 늘어나고 있음- 개인 정보의 가치 증대로 많은 기업이 개인정보 습득에 많은 자원 투자- 사생활 침해 방지를 위해 익명화(anonymization) 기술이 발전하나 충분하지 못하는 의견 다수- 2013년 정치 스캔들인 미국 NSA(National Security Agency)의 이메일, 전화통화, 문자메시지 등을 수집, 저장한 사건은 대표적인 정부의 사생활 침해 사건 NSA의 개인 정보 수집에 대한 고발이 담긴 실화를 기반으로 한 영화, 스노든(Snowden) ..
빅데이터의 가치 빅데이터 시대에서는 데이터의 활용 방식과 가치창출 방식, 분석 기술의 발전 때문에 데이터 가치 측정이 쉽지 않음 데이터 활용 방식- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없기에 가치 산정하는 것이 어려워짐- 데이터 재사용은 1차 목적뿐 아니라 2차, 3차적 목적으로도 사용 가능- 데이터의 다목적용의 경우 CCTV의 데이터는 절도범을 구별할 수 있으며, 구매 정보도 동시에 얻을 수 있음 새로운 가치 창출- 빅데이터 시대에는 데이터가 기존에 없는 가치를 창출하기에 가치 측정이 어려움 분석 기술의 발전- 클라우드 분산 컴퓨팅으로 저렴한 분석이 가능해지면서 기존에 분석하지 못한 것들을 분석할 수 있고 점점 활용도가 증가하고..
빅데이터(bigdata)의 정의 맥킨지(McKinsey, 2011)- 빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 IDC, 2011- 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 빅데이터 관심이 확대되면서, 인재나 조직까지도 빅데이터라는 개념에 포함시킬 것을 제안하기도 함(노무라 연구소) 메이어-쇤베르거와쿠키어(Mayer-Schonberger&Cukier, 2013)- 빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다. 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등..
사회기반구조의 데이터베이스 1990년대 사회의 전 부분의 정보화가 정부부처 중심으로 무역, 통관, 물류, 조세, 국세, 조달 등 사회간접자본(Social Overhead Capital, SOC) 차원에서 전자문서교환(Electronic Data Interchange, EDI) 활용이 본격화되고 부가가치통신망(Value Added Network, VAN)을 통한 정보망이 구축되기 시작하였다. 1995년 조세전산망, 1996년 조달,국방,물류종합망,의료정보망,산업정보망이 착수되었으며 중공업이나 유통 분야를 중심으로 빠르게 확산되었다. 2000년대에는 지리, 교통부문의 데이터베이스(Database)는 보다 고도화되었고, 의료,교육,행정 등 사회 각 부문으로 공공 DB의 구축 이용이 확대되었다. 분야별 사회기반..
데이터베이스의 용어의 등장 연혁을 왜 이해해야 하며, 다양한 기관에서 정의한 데이터베이스의 정의들을 왜 외워야 하는지 1도 모르겠지만, 기출문제 등에서 저런 쓰잘대기 없는 내용들이 출제되니 지루하더라도 년도랑 어떤 기관에서 저런 말을 했는지 외우도록 해보자. 마지막 데이터베이스의 다양한 측면의 특징은 정말 가관인 것 같다. 저정도를 모르는 사람이 공부를 한다고 하여 ADP와 같은 고급 자격증을 주는 것이 말이나 되는건지.. 데이터베이스의 용어의 등장 해외 1950년대 미국 정부의 자국 군대의 군비 상황을 집중 관리하기 위해서 컴퓨터를 활용한 도서관의 개념으로 등장, 데이터의 기지(Base)라는 뜻의 의미 1963년 6월 미국 SDC(System Development Corporation)에서 개최한 "컴..
한국 데이터베이스 진흥원(DBguide)은 좀 공부하는 사람들을 생각해서, 전자북을 개방하든 DAP(데이터 아키텍처 전문가)나 SQLP(SQL 전문가)와 같이 사이트에서 공개를 한 것처럼 ADP(데이터분석 전문가)혹은 ADsP(데이터분석 준전문가) 교재도 좀 공개를 했으면 좋겠다. 출퇴근에 약 1000 page나 되는 것들을 갖고 다닐수도 없는 노릇인데 1000페이지 가까이 되는 책을 전자북이나 요약북 등을 제공하지 않는다는 것은 오로지 공부는 네 집에의 책상에서만 하라는 것과 같을 것이다. 누구는 이동하면서 보고도 싶고, 간편하게 컴퓨터로도 보고 싶은데 시대에 역행하는 DBGuide를 보면 할말이 없다. 다른 사람들도 힘들거라 생각해서, 어느정도 내용을 요약하거나 보충하는 부분들을 사이트에 정리할까 한..