NoSQL 개요 NoSQL 개념 NoSQL은 키(Key)와 값(Value)의 형태로 자료를 저장하고, 빠르게 조회할 수 있는 자료 구조를 제공하는 저장소이다. 일반적인 DB인 RDBMS의 경우 조인(Join)을 수행할 수 있지만, NoSQL은 DB의 특성에 따라 Join 연산을 지원하거나 복잡한 Join을 지원하지 않으며 일반적으로 대용량 데이터와 대규모 확장성을 지원한다. NoSQL은 원래 non-SQL(비 SQL) 혹은 non-relational(비 관계형)라는 의미로 쓰였으나, NoSQL DB에서 SQL을 지원하는 경우가 속속 등장하면서 현재는 Not only SQL이라고 말하기도 한다. [2] NoSQL의 경우 4가지 대표 유형의 DB가 존재하는데 키-값(KeyValue), 컬럼 기반(Column..
1. 대용량 로그 데이터 수집 - 로그(Log)는 기업에서 발생하는 대표적인 비정형 데이터 - 과거에는 시스템의 문제 상황, 서비스 접근, 사용 로그를 기록하는 용도 - 최근에는 사용자 행태 분석, 마케팅, 영업 전략 필수 정보 생성 - 비정형 로그는 용량이 방대하기에 성능과 확정성 시스템 필요 가. 초고속 수집 성능과 확장성 - 수집 대상 서버가 증가하면 수만큼 에이전트 수를 늘리는 방식 나. 데이터 전송 보장 메커니즘 - 다양한 저장소의 종류에 따라 수집에서 저장소까지의 양 종단점 간에 데이터 전송 안정성 수준 제어 필요 - 여러 단계를 거쳐 저장소에 도착할 수 있는데 단계별로 신호를 주고 받아서 이벤트 유실 방지 - 성능과 안정성은 트레이드 오프(Trade-Off)가 존재하며 비즈니스 특성 고려해 ..
데이터 연계 및 통합 유형 (동기화 기준) - 데이터 연기 및 통합 시 일괄(Batch) 작업, 비동기식 근접 실시간(Near Real Time), 동기식 실시간(Real Time) 방식이 혼용 사용 될 수 있음 - 일괄 작업 시 대용량 처리가 가능하며, 실시간 작업은 관심 대상 영역 상태에 대한 빠른 파악 및 대응 가능 일괄 및 실시간 사례 일괄 작업 사례 - ETL 기능을 통해 운영 시스템으로부터 ODS를 구성하고, 데이터 웨어하우스나 데이터 마트를 구성한 뒤 OLAP 정형/비정형 질의를 통한 경영 분석 수행 작업 실시간 데이터 통합 사례 - 컨테이터 터미널, 공장 등의 센서들로부터 데이터를 실시간으로 획득해 운영 상태 모니터링 및 통제 (Complex Event Processing이라는 SW 및 데..
1. ETL의 개요 가. ETL의 개념 - ETL은 Extraction, Transformation and Load의 약어로 이뤄졌으며 데이터 이동과 변환 절차에 관련된 업계 표준 용어 - 데이터 웨어하우스(DW, Data Warehouse), 운영 데이터 스토어(ODS, Operation Data Store), 데이터 마트(DW, Data Mart)에 대한 데이터 적재 작업의 핵심 구성요소 - 데이터 통합(Data Integration), 데이터 이동(Data Migration), 마스터 데이터 관리(MDM, Master Data Management)등 폭넓게 활용 - ETL을 위한 여러 상용 소프트웨어가 있으며, 일괄(Batch) ETL과 실시간(Real Time) ETL로 구분됨 나. ETL의 3가..
1. 분석 마스터 플랜 수립 프레임워크 - 중장기적 관점의 마스터 플랜 수립을 위해 분석 과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성 등 다양한 기준을 고려해 우선순위 설정 - 종합적으로 고려하여 데이터 분석을 실행하기 위한 로드맵 수립 - 분석 마스터 플랜은 정보전략계획(ISP, Information Strategy Planning)을 활용하되 데이터 분석의 특성을 고려하여 계획 수립 ISP 참고 기업의 정보화 전략계획, ISP ISP라는 단어는 인터넷 시장에서 주로 쓰이는 Internet Service Provider라는 말로 보통 인식하지만, 정보화 프로젝트를 구축하고 계획하고, 설계하는 사람들에게는 Information Strategic Planning이라는..
하향식 접근 방법(Top Down Approach)는 현황 분석을 통해 인식된 문제점 혹은 전략으로부터 문제 탐색(Problem Discovery), 데이터 문제로 정의(Problem Difinition), 해결방안을 탐색(Solution Search), 데이터 분석의 타당성 평가(Feasibility Study)라는 단계를 거쳐 분석 과제를 도출하는 과정이다. 문제 탐색(Problem Discovery) - 전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출 및 식별이 중요 - 기준 모델로 비즈니스 모델과 외부 참조 모델 존재 - 문제를 해결하여 발생하는 가치에 중점 비즈니스 모델 기반 문제 탐색 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객,단위로 문제를 발굴하고, 이를 ..
본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다. 빅테이터 분석 방법론 빅데이터를 분석하기 위한 방법론은 계층적 프로세스 모델(Stepwised Process Model)로 3계층 구성 Phase (단계) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선(Baseline)으로 설정 관리하며, 버전관리(Configuration Management) 등을 통한 통제 Task (태스크) : 단계를 구성하는 단위활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음 Step (스텝) : WBS(Wor..
본 포스팅은 ADsP와 ADP 공통 과정인 데이터 분석 기획의 분석 방법론을 다룹니다. 분석 방법론이 방법론 모델 설명, KDD 방법론, CRISP-DM, 빅데이터 방법론 등 내용이 방대하기에 각각의 내용을 독립된 토픽으로 작성하였습니다. CRISP-DM 데이터 마이닝 방법론 CRISP-DM(Cross Industry Standard Process for Data Mining)은 데이터 마이닝 전문가가 사용하는 일반적인 접근 방식을 설명한 가장 널리 사용되는 공개 표준 분석 모델입니다. 2015년 IBM은 CRISP-DM을 개선하고 확장하는 데이터 마이닝 / 예측 분석을 위한 분석 솔루션 통합 방법(ASUM-DM)이라는 새로운 방법론을 발표하기도 했습니다. 이 방법론은 1996년에 유럽연합의 ESPRIT..
1. KDD(Knowledge Discovery in Databases)의 개요 - KDD(Knowledge Discovery in Databases)는 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 데이터 마이닝 프로세스 - 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조 Fayyad 박사 - 데이터에서 패턴을 찾는 과정을 9개의 프로세스로 제시 9개의 프로세스 분석 대상 비즈니스 도메인의 이해 분석 대상 데이터셋 선택과 생성 데이터에 포함되어 있는 노이즈(Noise)와 이상값(Outlier) 등을 제거하는 정제작업이나 선처리 분석 목적에 맞는 변수를 찾고 필요시 데이터의 차원을 축소하는 데이터 변경 분석..
해당 포스팅은 데이터 분석 전문가(ADP)와 데이터 분석 준전문가(ADsP)의 범위가 모두 포함된, 2과목 1장 1절 '분석기획 방향성 도출'에 관련된 내용을 요약하고 설명한 내용입니다. 분석기획의 특징 분석기획 - 분석을 수행하기 전에 수행할 과제를 정의하고, 의도한 결과를 도출하기 위해 적절히 관리할 수 있는 방안을 사전에 계획하는 작업 분석기획 역할 (단기) 분석과제 발굴 -> 분석 과제의 목표를 달성하기 위한 요건 정의 (데이터 분석 모델, IT 솔루션 정의 등) (중장기) 마스터플랜 수립 -> 분석 과제 수행을 위한 분석 지원 거버넌스 체제 도출 데이터 사이언티스트의 역량 - 수학/통계학적 지식 및 IT기술 뿐만 아니라, 비즈니스에 대한 이해와 전문성을 가지고 있어야 하는 3가지 영역에 대한 고..
2차원 데이터 앞서, 벡터(Vector)에 관련된 포스팅을 길게 썼는데 벡터는 1차원 데이터 구조이다. 벡터를 사용하는 경우도 많이 존재하지만, 사실상 벡터보다는 2차원 데이터를 더 많이 사용하게 된다. 우리가 흔히 사용하는 엑셀(Excel)만 하더라도 행만 사용하는 경우는 단순히 계산하기 위해서 데이터를 넣는 정도를 제외하면 없다고 봐도 무방할 정도이다. 이번편은 2차원 데이터의 가장 기본적인 매트릭스(Matrix) 명령어를 사용해보고, 다음 포스팅에는 본격적으로 가장 많이 사용하게 될 데이터 프레임(Data.Frame)에 대해서 포스팅 하고자 한다. Matrix와 Data.Frame의 차이 우선 본격적으로 매트릭스에 대한 설명에 앞서 매트릭스와 데이터프레임에 대한 차이를 설명한다면, Matrix를 데..
빅데이터의 가치 빅데이터 시대에서는 데이터의 활용 방식과 가치창출 방식, 분석 기술의 발전 때문에 데이터 가치 측정이 쉽지 않음 데이터 활용 방식- 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없기에 가치 산정하는 것이 어려워짐- 데이터 재사용은 1차 목적뿐 아니라 2차, 3차적 목적으로도 사용 가능- 데이터의 다목적용의 경우 CCTV의 데이터는 절도범을 구별할 수 있으며, 구매 정보도 동시에 얻을 수 있음 새로운 가치 창출- 빅데이터 시대에는 데이터가 기존에 없는 가치를 창출하기에 가치 측정이 어려움 분석 기술의 발전- 클라우드 분산 컴퓨팅으로 저렴한 분석이 가능해지면서 기존에 분석하지 못한 것들을 분석할 수 있고 점점 활용도가 증가하고..