데이터 연계 및 통합 유형 (동기화 기준) - 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음 - 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능 일괄 및 실시간 사례 일괄 작업 사례 - ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업 실시간 데이터 통합 사례 - 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데..
요즘 너도나도 풀스택 개발 강의와 데이터 사이언티스트 강의를 수강하는 사람들과 자신을 풀스택과 데이터 사이언티스트라고 소개하는 신입들을 보고 있자면 참 답답한 마음이 너무 크다. 학원에서 저렇게 강의하라고 한 것일까? 왜 저 소리에 답답한지 SI 10년 이상의 PL 및 TA 경력에 데이터 사이언티스트인 사람으로 일침을 한번 가해보고 싶다. 풀스택(Full-Stack) 풀스택이란 무엇인가? 쉽게 생각하면 백엔드와 프론트엔드 및 모든 스택을 마스터한 사람이라 생각할 수 있다. 한마디로 만능 개발자라는 것이다. 하지만 프론트엔드와 백엔드만 둘다 다루면 풀스택이라 칭하는 사람들이 있다. 이 정의가 맞다면 웹개발자 대다수는 모두 풀스택 개발자가 되는 것이다. 결국 풀스택이 일반적인 웹개발자랑 차이가 날려면 일반적..
본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다. 빅테이터 분석 방법론 빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성 Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제 Task (태스크) : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 Step (스텝) : WBS(Wor..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 1과목 3장 2절 '전략 인사이트 도출을 위한 필요 역량'에 관련된 내용을 요약하고 설명한 내용입니다. 데이터 사이언스의 의미와 역할 의미- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 해커의 사고방식, 데이터 시각화, 도메인에 특화된 전문 지식을 모두 포함하는 종합 학문- 다양한 유형(정형/비정형)의 데이터를 대상으로 분석 및 효과적으로 전달하고 구현하는 과정까지를 포함하는 학문 역할- 비즈니스의 성과를 좌우하고 핵심이슈에 답을 하며 사업의 성과를 견인해야 함 링크드인의 당신이 알 수도 있는 사람(People You May Know) 데이터 사이언스의 대표적인 사례로 링크드인(LinkedIn)의 당신이 ..
IRIS 데이터 인공지능을 하는 사람이면 가장 자주 보는 범용적인 데이터 셋의 2개가 있는데 하나는 손글씨 이미지 집합들인 MNIST이고, 분류 문제를 하는 간단하고 쉬운 데이터 집합으로 IRIS가 존재한다. IRIS하면 아무래도 드라마를 생각하거나 인간의 홍채를 생각할 수 있는데 인공지능에서 사용하는 이 데이터셋은 특정 꽃을 뜻한다. 이 꽃이 아이리스(한글명 붓꽃)이다 IRIS 데이터는 데이터프레임으로 구성되어 있으며 매우 심플하고, 사이즈가 작기 때문에 알고리즘을 이해하기가 상당히 쉽다. 다만 데이터가 작기 때문에 딥러닝과 같이 데이터 많을수록 유리한 알고리즘에서는 검증하기가 애매한 면이 있긴 하다. IRIS 데이터셋 구조 R에서는 IRIS 데이터가 내장이 되어 있어서 별도로 호출을 할 필요가 없다...
매트릭스와의 차이점 데이터 프레임에 배우기에 앞서 같은 2차원 데이터 주고인 매트릭스와의 차이점을 다시 한번 상기해보도록 하겠다. 매트릭스동일한 데이터 구조만 허용 데이터 프레임다양한 데이터 구조의 허용 데이터 프레임은 쉽게 엑셀을 머리속에서 떠올리면 된다. 엑셀에서 우리가 열에 저마다 다른 타입의 데이터를 넣을 수 있다. 번호이름 키 몸무게 1 홍길동 180 70 2 고길동 170 70 3 둘리 150 60 4 또치 150 50 위와 같은 숫자, 문자형 등이 섞여 있는 2차원 데이터 구조가 데이터 프레임이며, 매트릭스는 숫자 혹은 문자형 등의 한가지 타입으로만 통일되어 있는 차이가 있다. 데이터 프레임 생성 위의 테이블 예제를 토대로 데이터 프레임을 생성해보도록 하자 > numbers numbers[1..
2차원 데이터 앞서, 벡터(Vector)에 관련된 포스팅을 길게 썼는데 벡터는 1차원 데이터 구조이다. 벡터를 사용하는 경우도 많이 존재하지만, 사실상 벡터보다는 2차원 데이터를 더 많이 사용하게 된다. 우리가 흔히 사용하는 엑셀(Excel)만 하더라도 행만 사용하는 경우는 단순히 계산하기 위해서 데이터를 넣는 정도를 제외하면 없다고 봐도 무방할 정도이다. 이번편은 2차원 데이터의 가장 기본적인 매트릭스(Matrix) 명령어를 사용해보고, 다음 포스팅에는 본격적으로 가장 많이 사용하게 될 데이터 프레임(Data.Frame)에 대해서 포스팅 하고자 한다. Matrix와 Data.Frame의 차이 우선 본격적으로 매트릭스에 대한 설명에 앞서 매트릭스와 데이터프레임에 대한 차이를 설명한다면, Matrix를 데..
위기 요인 빅데이터의 시대가 진행되면서 사생활 침해, 책임원칙 훼손, 데이터 오용등의 어두운면 있음 사생활 침해- M2M(Machine to Machine), IoT(Internet of Things) 시대가 본격화 되면서 정보 수집 센서들의 수가 늘어나고 있음- 개인 정보의 가치 증대로 많은 기업이 개인정보 습득에 많은 자원 투자- 사생활 침해 방지를 위해 익명화(anonymization) 기술이 발전하나 충분하지 못하는 의견 다수- 2013년 정치 스캔들인 미국 NSA(National Security Agency)의 이메일, 전화통화, 문자메시지 등을 수집, 저장한 사건은 대표적인 정부의 사생활 침해 사건 NSA의 개인 정보 수집에 대한 고발이 담긴 실화를 기반으로 한 영화, 스노든(Snowden) ..
1. 함수의 도움말 보기 R studio까지 설치했다고 한다면 (http://needjarvis.tistory.com/44 포스팅 참조) 이제 슬슬 R이 어떤 기능들이 있는지 확인해봐야 한다. R은 통계 및 데이터분석에 특화된 언어이기 때문에 이런 기능들을 매우 쉽게 제공하고 있다. > help(함수명) 위와 같이 명령을 하게 되면, 함수에 관련된 help 값을 가져올 수 있다. 시각화를 위한 plot 함수를 help 명령어에 argument로 실행하면 studio에서 우측 하단의 붉은색 네모영역에 표시가 된다. help에서 많은 부분을 알려주기 때문에 유용하게 쓰이지만, 인자값(Arguments)만 알고 싶은 경우가 있다. 위 help에 표시된 Usage 밑에 나온 "plot(x, y, ...)" 이 ..
K-평균(K-Means) 알고리즘은 기계학습(머신러닝, machine learning), 데이터마이닝에서 활용하고 있는 기법으로서, 대표적인 비지도학습이다. 비지도학습이란 어떤 결과를 예측하지 못해야 되는 것으로, 컴퓨터 스스로 어떠한 해답을 찾아내는 것을 말한다. 예를 들어, 남자와 여자를 분류하고 싶다라는 것은 이미 목적이 존재하고 값이 존재하기 때문에 비지도학습이 될수 없지만 컴퓨터 스스로 데이터를 분류하다가 남자와 여자의 특성 차이를 깨닫고 분류했다면, 비지도학습이 되는 것이다. K-Means는 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다. 다음 수행에서는 좀 더 중심에 위치한 중심값을 선정하고, 분류하고 이러한 과정을 반복하여 더이상 분류가 되지 않을 경우에 해당..
1. 데이터 마이닝 데이터 분석, 즉 데이터 마이닝은 Mining 이라는 단어에서 알 수 있듯이, DATA에서 의미를 추출, 캐는 작업을 뜻한다. 좀 더 쉽게 풀이하자면 데이터 안에서 통계적 규칙이나 패턴등을 찾는 행위 및 도구, 기법등을 뜻한다. 빅데이터가 단순히 테라 이상급의 DATA만을 의미하는 것이 아닌 데이터 마이닝도 행위만을 뜻하는 것은 아니다. 위 그림을 보면, 알겠지만 0,1의 Digit들을 정제하여 의미를 찾아내는 것이라고 이해하면 된다. 2. 데이터 마이닝의 절차 데이터마이닝의 일반적인 절차는 우선 데이터를 선택하고, 정제한다.정제된 데이터를 특정 형태로 변형을 한 후, 데이터 마이닝을 거치고 해석을 하는 단계까지 이어지는 비교적 단순한 과정이다. 이를 실생활로 이해를 해보도록 하자. ..